分布式文件系统小文件性能优化技术研究
本文关键词:分布式文件系统小文件性能优化技术研究
【摘要】:随着信息化程度的不断提高,数字信息也迅速增加,分布式文件系统为海量信息的存储提供了有效的解决措施。对分布式文件系统的研究表明,系统对于大文件操作,可以充分使用网络带宽和服务器的存储能力,有非常好的性能。然而,对于日益增长的小文件应用,存在网络带宽利用率低,小文件读写性能差的问题。 CapFS是实验室自主研发的分布式文件系统,通过详细分析CapFS系统文件读写流程,得出小文件读写时客户端请求队列长,,从而导致了读写操作延迟大,性能低下。结合当前文件系统设计现状,并充分利用Linux内核缓存,改善了小文件访问负载性能。采用基于聚合的小文件优化技术,在客户端写操作中,将多个文件保存在同一个数据块,从而实现聚合。综合网络带宽使用和一致性开销等指标,得出合适的数据块大小;结合Linux内核文件预取机制,选取关联文件放在同一个数据块中,在一定程度上提高文件读性能;结合Linux内核缓存机制,确定数据块缓存策略及“脏”数据块刷回机制;通过回调机制,保证多客户端并发访问的一致性。在元数据服务器端,采用哈希方式来管理数据块元数据信息,提供高效的数据块索引能力。 测试结果表明,小文件聚合技术使得CapFS小文件写性能有较为明显提升,小于64KB的文件,写性能提升约一倍,网络带宽利用率增加约一倍;小文件顺序访问时,对于小于64KB的文件,性能提升约25%;对于系统原有大文件性能不受影响。
【关键词】:分布式文件系统 小文件 聚合 缓存
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-15
- 1.1 课题背景8-9
- 1.2 国内外研究现状9-11
- 1.3 CapFS 系统介绍11-13
- 1.4 本文研究的主要内容13
- 1.5 论文结构安排13-15
- 2 CapFS 小文件性能优化方法分析15-23
- 2.1 CapFS 文件访问流程15-16
- 2.2 CapFS 现有小文件优化技术16-18
- 2.3 现有优化技术的不足18
- 2.4 基于聚合的小文件优化策略18-22
- 2.5 本章小结22-23
- 3 基于聚合的小文件优化技术设计23-36
- 3.1 设计思想23
- 3.2 数据块大小设计23-25
- 3.3 小文件聚合策略25-27
- 3.4 数据块的元数据管理27-31
- 3.5 数据块碎片管理31-32
- 3.6 数据块缓存策略设计32-34
- 3.7 文件系统数据一致性设计34-35
- 3.8 本章小结35-36
- 4 基于聚合的小文件优化技术实现36-46
- 4.1 MDS 端数据块元数据管理的实现36-40
- 4.2 客户端小文件聚合的实现40-45
- 4.3 本章小结45-46
- 5 测试分析46-52
- 5.1 测试环境46
- 5.2 小文件读写测试46-47
- 5.3 小文件并发测试47-50
- 5.4 大文件测试50-51
- 5.5 本章小结51-52
- 6 全文总结52-54
- 致谢54-55
- 参考文献55-59
- 附录:攻读硕士学位期间参加的主要科研项目59
【相似文献】
中国期刊全文数据库 前10条
1 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期
2 郎为民;杨德鹏;;云计算中的分布式文件系统[J];电信快报;2012年02期
3 陈文捷;蔡立志;楼志斌;王洁萍;李海波;;应用级分布式文件系统接口标准化探索[J];信息技术与标准化;2012年10期
4 应朝晖,高洪奎,黄若衡;分布式文件系统[J];计算机工程与科学;1995年03期
5 卢军;卢显良;韩宏;许腾;;基于移动Agent的新型分布式文件系统研究[J];计算机科学;2002年10期
6 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期
7 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期
8 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期
9 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期
10 阴四海;王文杰;李秀斌;范军涛;;并行分布式文件系统的改进[J];计算机应用;2007年S2期
中国重要会议论文全文数据库 前4条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年
中国重要报纸全文数据库 前10条
1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 ;分布式文件系统一瞥[N];网络世界;2002年
5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年
9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年
10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年
中国博士学位论文全文数据库 前4条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 冷志强;基于分布式文件系统GlusterFS的横向扩展云存储的研究与实现[D];复旦大学;2014年
2 黎斌;基于HDFS的分布式文件系统存储研究与优化[D];电子科技大学;2015年
3 何雄;大小文件跨网络集群快速迁移协议[D];电子科技大学;2015年
4 焦晨宇;可伸缩分布式文件系统及其应用[D];北京理工大学;2015年
5 谯林飞;云计算环境中分布式文件系统数据一致性问题研究[D];电子科技大学;2014年
6 秦小寒;优化性能的分布式存储子系统的设计与实现[D];电子科技大学;2014年
7 牛升;分布式文件系统的负载均衡策略研究[D];电子科技大学;2014年
8 郭建国;基于分布式文件系统FastDFS的图片服务器件设计与应用[D];中国科学院大学(工程管理与信息技术学院);2015年
9 白铖;一种分布式文件系统的设计与实现[D];电子科技大学;2015年
10 吴霖;分布式微信公众平台爬虫系统的研究与应用[D];南华大学;2015年
本文编号:585315
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/585315.html