小文件存取优化方法的研究与应用
发布时间:2017-05-30 16:05
本文关键词:小文件存取优化方法的研究与应用,由笔耕文化传播整理发布。
【摘要】:随着信息技术的提高和互联网飞速发展,企业和个人数据出现爆炸式增长。研究调查预测到2020年全球数据量将达到35ZB。大数据时代已经来临,传统数据存储方式已经无法满足大数据时代的海量数据存储需求,而以HDFS为代表的分布式文件系统凭借其高可靠性、高可扩展、高容错性、低成本等特点为大数据时代的海量数据存取提供了全新的模式。然而,HDFS在处理小文件时存在存取效率低,元数据信息存储消耗内存大以及系统数据冗余度高等问题。因此海量小文件的存储方法的研究与优化成为国内外研究的热门之一。本文对HDFS分布式文件系统进行了全面分析,并介绍了重复数据删除技术,同时分析了基于HDFS系统存储海量小文件时存在的不足。针对网络中的存在大量的小文件及重复数据,分别采用了相应的的处理策略。本文的主要研究内容和创新点如下:(1)提出基于相似度的小文件合并算法。首先设计了提取文件关键字策略,对文件的关键字利用汉明距离进行相似度计算,将相关的小文件合并成大文件上传到HDFS上;结合小文件合并方案,对小文件的元数据结构、存储位置进行了分析,同时,对小文件的读写操作流程进行了详细的设计,有效地减少了系统的I/O操作,缓解了Name Node存储元数据的压力,间接地增加系统的存储容量。(2)针对系统中存在数据高度冗余问题,本文在基于TTTD算法的基础上提出了IOTD优化算法,可以明显地减小文件分块大小的不确定性,提高数据去重率,同时为了加快数据去重中查询索引表的速度,引入RUH表,通过Map Reduce编程模型将索引表中最近访问最多的数据块信息放到RUH表,达到减少查询索引表时间的目的。实验结果表明,本文提出的方案在有效减少Name Node的内存使用率,及系统存储冗余数据的同时加快了小文件存取的效率,大大提升了小文件的管理性能。
【关键词】:小文件 存取优化 HDFS 数据去重
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【目录】:
- 摘要4-6
- ABSTRACT6-9
- 第1章 绪论9-12
- 1.1 引言9
- 1.2 课题研究意义9-10
- 1.3 课题研究内容10-11
- 1.4 论文组织结构11-12
- 第2章 小文件存储方法的研究12-29
- 2.1 面向小文件的分布式文件系统12-17
- 2.1.1 TFS文件系统13-15
- 2.1.2 FastDFS文件系统15-16
- 2.1.3 TFS与FastDFS性能对比16-17
- 2.2 HDFS分布式文件系统17-21
- 2.2.1 HDFS体系架构17-19
- 2.2.2 HDFS的I/O操作19-21
- 2.3 重复删除技术21-23
- 2.3.1 文件级别的重复删除技术22
- 2.3.2 块级别的重复删除技术22-23
- 2.4 基于HDFS的小文件存储方法的研究23-28
- 2.4.1 小文件存取性能分析23-25
- 2.4.2 HDFS处理小文件相关技术25-27
- 2.4.3 解决小文件面临的问题27-28
- 2.5 本章小结28-29
- 第3章 小文件存储的优化29-43
- 3.1 解决小文件问题整体思路29-30
- 3.2 基于相似度的小文件合并算法30-33
- 3.2.1 关键词提取策略30-32
- 3.2.2 文本相似度匹配32
- 3.2.3 文件跨块问题32-33
- 3.3 元数据信息的优化33-38
- 3.3.1 元数据结构34-36
- 3.3.2 元数据的存储位置36
- 3.3.3 小文件的读写流程36-38
- 3.4 实验与分析38-42
- 3.5 本章小结42-43
- 第4章 文件管理性能优化43-50
- 4.1 IOTD算法43-45
- 4.2 索引查询优化45-47
- 4.3 实验结果与分析47-49
- 4.4 本章小结49-50
- 第5章 系统的设计与实现50-59
- 5.1 系统架构设计50-51
- 5.2 系统模块设计51-56
- 5.2.1 数据去重模块51-52
- 5.2.2 文件合并模块52-53
- 5.2.3 索引模块53-54
- 5.2.4 缓存模块54-55
- 5.2.5 用户界面55-56
- 5.3 系统的I/O操作56-57
- 5.3.1 小文件的存储过程56-57
- 5.3.2 小文件的读取过程57
- 5.4 本章小结57-59
- 第6章 总结及展望59-61
- 6.1 总结59-60
- 6.2 展望60-61
- 参考文献61-65
- 致谢65-66
- 攻读硕士学位期间发表的论文66
【参考文献】
中国期刊全文数据库 前10条
1 李铁;燕彩蓉;黄永锋;宋亚龙;;面向Hadoop分布式文件系统的小文件存取优化方法[J];计算机应用;2014年11期
2 陈东辉;曾乐;梁中军;肖卫青;;基于HBase的气象地面分钟数据分布式存储系统[J];计算机应用;2014年09期
3 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期
4 付松龄;廖湘科;黄辰林;王蕾;李姗姗;;FlatLFS:一种面向海量小文件处理优化的轻量级文件系统[J];国防科技大学学报;2013年02期
5 张春明;芮建武;何婷婷;;一种Hadoop小文件存储和读取的方法[J];计算机应用与软件;2012年11期
6 马灿;孟丹;熊劲;;曙光星云分布式文件系统:海量小文件存取[J];小型微型计算机系统;2012年07期
7 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期
8 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
9 张颖颖;谢强;丁秋林;;基于同义词链的中文关键词提取算法[J];计算机工程;2010年19期
10 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
本文关键词:小文件存取优化方法的研究与应用,由笔耕文化传播整理发布。
,本文编号:407444
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/407444.html