Hadoop小文件处理技术的研究和实现
发布时间:2020-11-10 22:46
随着Internet的飞速发展,传统的技术架构在处理海量数据方面显得越来越乏力。Hadoop作为一种能够对海量数据进行高效地分布式处理框架,由底层HDFS文件系统和上层MapReduce编程模型构成;采用主从式架构设计模式的HDFS文件系统在单名称节点方面的设置简化了文件系统的结构,然而也产生了小文件存储效率低的问题。 针对Hadoop在处理小文件时存储效率低下和大量的小文件给MapReduce处理带来的超负荷,本文提出基于归档文件技术和序列文件技术解决Hadoop小文件问题,基本思想是通过将小文件合并后分块存储,然后建立小文件到大文件的映射。本文对Hadoop小文件的优化处理方案进行了系统的测试,建立不同的测试用例,包括直接读取小文件和读取合并后的小文件,通过比较直接从本地文件系统和HDFS文件系统上传文件的时间、合并前后访问文件的时间和读取文件时系统的内存占用率,验证了本文设计的方案适用于MapReduce计算模型,可以提高小文件随机访问的效率。
【学位单位】:南京邮电大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:TP338.8
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景
1.2 研究现状
1.2.1 Hadoop 小文件处理
1.2.2 Hadoop 技术上的新需求
1.3 研究内容与意义
1.4 本文的组织
第二章 相关技术研究
2.1 Hadoop 分布式平台结构
2.1.1 HDFS 分布式存储架构
2.1.2 相关通信协议
2.1.3 MapReduce 编程框架
2.1.4 MapReduce 作业执行流程
2.2 Trie 树索引
2.3 Hadoop 处理小文件相关技术
2.4 Hadoop 处理小文件关键问题
2.4.1 存储问题
2.4.2 读写问题
2.5 本章小结
第三章 小文件解决方案的分析和设计
3.1 归档文件和序列化文件
3.1.1 归档文件技术
3.1.2 序列化文件技术
3.2 系统总体结构设计
3.3 小文件存储优化结构设计
3.3.1 小文件优化方案
3.3.2 小文件优化方案设计
3.3.3 小文件优化方案的不足之处
3.4 小文件索引的结构设计
3.5 小文件优化算法设计
3.5.1 Writable 类和 SequenceFile 类
3.5.2 数据类型设计
3.5.3 合并算法的设计
3.6 可行性分析
3.7 本章小结
第四章 小文件解决方案的实现
4.1 总体架构实现
4.2 小文件存储优化的实现
4.2.1 HDFS 的 I/O 数据检查
4.2.2 数据压缩
4.3 小文件合并算法
4.3.1 数据的 I/O 序列化操作
4.3.2 合并算法的实现
4.4 小文件索引创建的实现
4.5 本章小结
第五章 系统测试与分析
5.1 实验环境
5.2 实验用到的主要 JAVA 类
5.3 实验结果分析与比较
5.3.1 上传文件测试
5.3.2 访问文件测试
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
附录 1 攻读硕士学位期间参加的科研项目
致谢
【参考文献】
本文编号:2878417
【学位单位】:南京邮电大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:TP338.8
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景
1.2 研究现状
1.2.1 Hadoop 小文件处理
1.2.2 Hadoop 技术上的新需求
1.3 研究内容与意义
1.4 本文的组织
第二章 相关技术研究
2.1 Hadoop 分布式平台结构
2.1.1 HDFS 分布式存储架构
2.1.2 相关通信协议
2.1.3 MapReduce 编程框架
2.1.4 MapReduce 作业执行流程
2.2 Trie 树索引
2.3 Hadoop 处理小文件相关技术
2.4 Hadoop 处理小文件关键问题
2.4.1 存储问题
2.4.2 读写问题
2.5 本章小结
第三章 小文件解决方案的分析和设计
3.1 归档文件和序列化文件
3.1.1 归档文件技术
3.1.2 序列化文件技术
3.2 系统总体结构设计
3.3 小文件存储优化结构设计
3.3.1 小文件优化方案
3.3.2 小文件优化方案设计
3.3.3 小文件优化方案的不足之处
3.4 小文件索引的结构设计
3.5 小文件优化算法设计
3.5.1 Writable 类和 SequenceFile 类
3.5.2 数据类型设计
3.5.3 合并算法的设计
3.6 可行性分析
3.7 本章小结
第四章 小文件解决方案的实现
4.1 总体架构实现
4.2 小文件存储优化的实现
4.2.1 HDFS 的 I/O 数据检查
4.2.2 数据压缩
4.3 小文件合并算法
4.3.1 数据的 I/O 序列化操作
4.3.2 合并算法的实现
4.4 小文件索引创建的实现
4.5 本章小结
第五章 系统测试与分析
5.1 实验环境
5.2 实验用到的主要 JAVA 类
5.3 实验结果分析与比较
5.3.1 上传文件测试
5.3.2 访问文件测试
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
附录 1 攻读硕士学位期间参加的科研项目
致谢
【参考文献】
相关期刊论文 前4条
1 程莹;张云勇;徐雷;房秉毅;;基于Hadoop及关系型数据库的海量数据分析研究[J];电信科学;2010年11期
2 刘旭辉;韩冀中;贺劲;韩承德;;基于集群系统的空间数据并行处理策略研究[J];高技术通讯;2009年10期
3 栾亚建;黄翀民;龚高晟;赵铁柱;;Hadoop平台的性能优化研究[J];计算机工程;2010年14期
4 曾龙海;张博锋;张丽华;何冰;吴耿锋;徐炜民;;基于云计算平台的虚拟集群构建技术研究[J];微电子学与计算机;2010年08期
相关硕士学位论文 前4条
1 泰冬雪;基于Hadoop的海量小文件处理方法的研究[D];辽宁大学;2011年
2 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
3 李云桃;基于Hadoop的海量数据处理系统的设计与实现[D];哈尔滨工业大学;2009年
4 黄晓云;基于HDFS的云存储服务系统研究[D];大连海事大学;2010年
本文编号:2878417
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2878417.html