一种基于Hadoop/MapReduce的可扩展存储系统架构研究
发布时间:2020-12-19 22:31
随着互联网的高速发展,数据规模以指数级的速度增加,如何来存储和处理这些数据是一个挑战性的问题。Hadoop允许用户不熟悉分布式的情况下,充分利用海量存储的集群和高速计算,做分布式应用程序开发。Hadoop最出名的是MapReduce分布式计算框架和它的分布式文件系统HDFS。主要特点是:成本低,扩展能力非常好,效率高,出色的可靠性。它是可以运行在在多个操作系统和商用类硬件上的系统。但是,HDFS设计的初衷是存储大文件的,当面向某些特定应用的时候,应用会产生大量的小文件,小文件的增多就会导致文件存储速度过慢,系统使用内存急剧升高。针对这一问题,提出了一种新的架构HUST MAP-REDUCE FRAMEWORK(HMRF),采用了文件合并的思想对小文件合并成为大文件的方法,对小文件存储进行了优化处理。实验表明,基于Hadoop/MapReduce的可扩展存储系统架构(HMRF)能够很好的存储大量小文件。基于HMRF,名称节点内存平均降低了63.2%,数据节点内存平均降低了38.7%,小文件写入速度平均增加了171%。
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究现状
1.3 论文结构简介
1.4 课题来源
2 Hadoop 相关技术介绍
2.1 Apache hadoop 项目
2.2 MapReduce 编程模型
2.3 Hadoop 分布式文件系统 HDFS
2.4 HDFS 的读写流程分析
2.5 本章小结
3 一种基于 Hadoop/MapReduce 的可扩展存储系统架构
3.1 小文件存储性能分析
3.2 基于 Hadoop/MapReduce 的存储系统架构
3.3 文件合并功能模块设计与实现
3.4 小文件索引信息列表模块
3.5 读文件和删除文件
3.6 HMRF 可扩展性
3.7 本章小结
4 系统测试与分析
4.1 实验平台的搭建
4.2 HMRF 与 HDFS 性能对比测试
4.3 HMRF 可扩展性能测试
4.4 本章小结
5 总结及展望
5.1 总结
5.2 进一步工作和展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陈华平. 计算机工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 计算机系统应用. 2010(07)
[3]基于MapReduce的PCA异常流量检测系统实现[J]. 黄志兰,丁圣勇,杨国良,罗颂锋. 电信科学. 2010(06)
[4]基于Hadoop的海量数据管理系统[J]. 多雪松,张晶,高强. 微计算机信息. 2010(13)
[5]基于MapReduce的并行贝叶斯分类算法的设计与实现[J]. 丁光华,周继鹏,周敏. 微计算机信息. 2010(09)
[6]基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 常智荣,马自卫,李高虎. 现代图书情报技术. 2010(03)
[7]基于MapReduce模型的分布式Word文档破解[J]. 陈勤,方海英,褚一平,黄剑军. 计算机系统应用. 2010(03)
[8]基于集群系统的空间数据并行处理策略研究[J]. 刘旭辉,韩冀中,贺劲,韩承德. 高技术通讯. 2009(10)
[9]Hadoop集群和单机数据处理的耗时对比实验[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云计算及其应用的开源实现研究[J]. 赵华茗,李春旺,李宇,周强. 现代图书情报技术. 2009(09)
硕士论文
[1]基于Hadoop的海量图象数据管理[D]. 李波.华东师范大学 2011
[2]基于Hadoop平台的数据分析和应用[D]. 姜文.北京邮电大学 2011
[3]基于HADOOP的数据挖掘研究[D]. 杨宸铸.重庆大学 2010
[4]基于Hadoop平台的通信数据分布式查询算法的设计与实现[D]. 陈勇.北京交通大学 2009
[5]云计算中的网络拓扑设计和Hadoop平台研究[D]. 邓自立.中国科学技术大学 2009
本文编号:2926686
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究现状
1.3 论文结构简介
1.4 课题来源
2 Hadoop 相关技术介绍
2.1 Apache hadoop 项目
2.2 MapReduce 编程模型
2.3 Hadoop 分布式文件系统 HDFS
2.4 HDFS 的读写流程分析
2.5 本章小结
3 一种基于 Hadoop/MapReduce 的可扩展存储系统架构
3.1 小文件存储性能分析
3.2 基于 Hadoop/MapReduce 的存储系统架构
3.3 文件合并功能模块设计与实现
3.4 小文件索引信息列表模块
3.5 读文件和删除文件
3.6 HMRF 可扩展性
3.7 本章小结
4 系统测试与分析
4.1 实验平台的搭建
4.2 HMRF 与 HDFS 性能对比测试
4.3 HMRF 可扩展性能测试
4.4 本章小结
5 总结及展望
5.1 总结
5.2 进一步工作和展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陈华平. 计算机工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 计算机系统应用. 2010(07)
[3]基于MapReduce的PCA异常流量检测系统实现[J]. 黄志兰,丁圣勇,杨国良,罗颂锋. 电信科学. 2010(06)
[4]基于Hadoop的海量数据管理系统[J]. 多雪松,张晶,高强. 微计算机信息. 2010(13)
[5]基于MapReduce的并行贝叶斯分类算法的设计与实现[J]. 丁光华,周继鹏,周敏. 微计算机信息. 2010(09)
[6]基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 常智荣,马自卫,李高虎. 现代图书情报技术. 2010(03)
[7]基于MapReduce模型的分布式Word文档破解[J]. 陈勤,方海英,褚一平,黄剑军. 计算机系统应用. 2010(03)
[8]基于集群系统的空间数据并行处理策略研究[J]. 刘旭辉,韩冀中,贺劲,韩承德. 高技术通讯. 2009(10)
[9]Hadoop集群和单机数据处理的耗时对比实验[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云计算及其应用的开源实现研究[J]. 赵华茗,李春旺,李宇,周强. 现代图书情报技术. 2009(09)
硕士论文
[1]基于Hadoop的海量图象数据管理[D]. 李波.华东师范大学 2011
[2]基于Hadoop平台的数据分析和应用[D]. 姜文.北京邮电大学 2011
[3]基于HADOOP的数据挖掘研究[D]. 杨宸铸.重庆大学 2010
[4]基于Hadoop平台的通信数据分布式查询算法的设计与实现[D]. 陈勇.北京交通大学 2009
[5]云计算中的网络拓扑设计和Hadoop平台研究[D]. 邓自立.中国科学技术大学 2009
本文编号:2926686
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2926686.html