分布式海量小文件存储访问优化研究与实现
发布时间:2020-04-23 17:25
【摘要】:随着移动互联网的高速发展和快速普及,人们逐步进入万物互联的时代,每天都会产生海量的移动数据信息。特别是近些年不断兴起的短视频社交APP和电商APP,这类APP每天都会产生大量的短视频和图片,它们的数据存储空间相对较小,大都在10M左右。然而当前业界的HDFS、GFS等分布式文件存储系统都是针对大文件设计的,在处理海量小文件的时候其性能会急剧下降,甚至无法正常对外提供服务。设计一个海量小文件的存储访问系统是当前分布式文件系统研究的热点领域。FastDFS是专门针对小文件存储而设计的,本文以FastDFS分布式文件系统作为底层存储系统,提出了一种新的针对海量小文件存储访问优化方法,并对其进行了一系列的优化,主要包括:1)针对当今的短视频社交APP的高并发访问问题,本文提出了一种新的小文件访问负载均衡算法,该算法主要根据后端服务器集群中各个节点的性能来动态地调整其权值,充分考虑后端服务器资源动态使用情况。2)本地文件系统的inode数量有限,存储小文件数量会受到其限制,不能充分利用磁盘空间;本文从短视频APP和电商APP出发,根据短视频文件和商品图片的用户属性对FastDFS的小文件存储过程、合并算法进行改进,将相同属性的小文件合并成一个大文件,达到在访问文件时可以利用磁盘顺序读取方式加快访问速率。3)针对FastDFS记录文件同步过程的缺陷,本文对其进行了优化,通过定期生成检查点文件,然后把检查点文件同步给其它节点,最后结合检查点文件对记录文件进行压缩。针对以上优化方法,本文进行实验仿真。实验结果表明,本文的优化方法在应对高并发写入文件时有11%的性能提升,在读取文件时有25%的性能提升。最后本文实现了基于优化后的分布式海量小文件存储访问系统,可用于存储海量短视频和图片小文件,可以弥补FastDFS的局限性。
【图文】:
华南理工大学硕士学位论文aystack Store 负责存储实际的图片文件,跟上一节介绍的 HDFS 中的 DataN不过其在设计上有很大区别。每个 Haystack Store 中有多个物理卷,可以看盘,每个物理卷可以认为是一个超大文件,,因此在每个数据存储结点中,文信息很少。物理卷中包含一系列的 needle,每个 needle 相当于一个文件,而卷组成一个逻辑卷,写入文件时是往逻辑卷中写多份,达到数据冗余备份的访问 HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件获取。如图 2-4 为 Haystack Store 中物理卷和 needle 的结构图。
华南理工大学硕士学位论文[40]。具体说明如下:处理时间。对于用来来讲,请求处理时间是指用户发送请求到请间,该值反映了服务器对于用户的服务质量,该值越小对于用户吞吐率。对于系统来讲,吞吐率是指单位时间内在网络上进行传同样也可指在单位时间内系统处理用户的请求数,是衡量系统性通常可以用请求数/s 来进行衡量。验利用 ApacheBenchmark 测试工具进行模拟用户文件请求,从不计的算法和静态加权轮询算法分别进行测试,实验测得不同并发间如下图 3-7 所示:
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333;TP311.56
本文编号:2637967
【图文】:
华南理工大学硕士学位论文aystack Store 负责存储实际的图片文件,跟上一节介绍的 HDFS 中的 DataN不过其在设计上有很大区别。每个 Haystack Store 中有多个物理卷,可以看盘,每个物理卷可以认为是一个超大文件,,因此在每个数据存储结点中,文信息很少。物理卷中包含一系列的 needle,每个 needle 相当于一个文件,而卷组成一个逻辑卷,写入文件时是往逻辑卷中写多份,达到数据冗余备份的访问 HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件获取。如图 2-4 为 Haystack Store 中物理卷和 needle 的结构图。
华南理工大学硕士学位论文[40]。具体说明如下:处理时间。对于用来来讲,请求处理时间是指用户发送请求到请间,该值反映了服务器对于用户的服务质量,该值越小对于用户吞吐率。对于系统来讲,吞吐率是指单位时间内在网络上进行传同样也可指在单位时间内系统处理用户的请求数,是衡量系统性通常可以用请求数/s 来进行衡量。验利用 ApacheBenchmark 测试工具进行模拟用户文件请求,从不计的算法和静态加权轮询算法分别进行测试,实验测得不同并发间如下图 3-7 所示:
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333;TP311.56
【参考文献】
相关期刊论文 前2条
1 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期
2 余庆;;分布式文件系统FastDFS架构剖析[J];程序员;2010年11期
本文编号:2637967
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2637967.html