Hadoop云存储策略的研究与优化
本文关键词:Hadoop云存储策略的研究与优化,,由笔耕文化传播整理发布。
【摘要】:随着云计算技术的发展以及被业界所逐渐接受,与之相随的云存储系统也得到相应的发展,越来越多的企业和科研机构开始使用云平台构建各自的云存储体系,而在众多云平台中,开源实现的Hadoop云平台得到了业界广泛的应用,包括Yahoo、Facebook以及IBM等。Hadoop云平台对数据的存储主要是由其分布式文件系统HDFS实现的,因此对于HDFS的研究成为了很多公司构建各自云存储系统的基础。 HDFS系统默认的存储策略虽然可以有效的解决大数据的存储但是在现实应用中却存在一些不足,在默认的HDFS存储策略中,数据节点的状态信息不够完善以及随机选择数据节点,使得控制节点在选择数据节点存储的时候容易出现系统负载不均衡,另外当随机选择远端节点进行存储的时候可能会造成因为节点之间网络距离较远而造成数据传输时间过长损耗系统性能的现象,同时由于HDFS默认存储策略采用了固定的数据副本个数,在实际应用中可能会导致系统中数据冗余太多,影响系统的负载能力。因此解决了上述问题,就可以在一定程度上提高HDFS系统的存储性能。 所以,本文在分析HDFS默认策略的不足之后,基于HDFS设计一种优化的存储策略。该策略首先对数据节点的状态信息进行完善,为控制节点在选择数据节点进行数据存储的时候提供了更多的依据。其次,该策略可以根据用户的实际需求设置数据副本系数。再次,在随机选择数据节点时采用了评价值方法,即根据节点的负载情况以及与本地节点的网络距离计算该节点的评价值。最后通过将优化后的策略部署到仿真实验平台上,验证了该策略的可行性以及测试了该策略的效率。实验证明,优化后的策略确实能够提高系统的存储性能,有效的平衡了节点之间的负载,减少了系统瓶颈出现的可能性,同时加强了用户体验。 HDFS分布式文件系统运行在Hadoop云平台上,优化的存储策略可以实际应用到企业和科研机构的云数据中心,同时因为该策略具有较高的可配置性,在实际应用中可以根据不同的需求来进行配置,从而有效地提高海量数据的存储性能。
【关键词】:云计算 云存储 HDFS 存储策略 优化
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【目录】:
- 摘要4-6
- ABSTRACT6-8
- 目录8-10
- CONTENTS10-12
- 第一章 绪论12-18
- 1.1 课题研究背景与意义12-14
- 1.2 课题国内外研究现状14-15
- 1.2.1 国外现状14
- 1.2.2 国内现状14-15
- 1.3 论文研究主要内容15-16
- 1.3.1 论文研究主要方法15-16
- 1.4 论文组织结构16-18
- 第二章 Hadoop云计算平台18-31
- 2.1 Hadoop云计算平台工作原理18
- 2.2 MapReduce计算框架18-19
- 2.3 HDFS分布式文件系统19-28
- 2.3.1 HDFS技术背景以及设计目标19-22
- 2.3.2 HDFS的节点22-23
- 2.3.3 HDFS对数据的操作23-26
- 2.3.4 HDFS中的通讯协议26-27
- 2.3.5 HDFS存储空间的回收27-28
- 2.4 HDFS启动过程28-30
- 2.4.1 控制节点启动28-29
- 2.4.2 数据节点的启动29-30
- 2.5 本章总结30-31
- 第三章 HDFS存储过程的分析31-41
- 3.1 HDFS的存储过程介绍31-32
- 3.2 状态信息研究32-35
- 3.3 数据存储策略分析35-40
- 3.4 本章总结40-41
- 第四章 HDFS默认存储策略的优化41-51
- 4.1 设计思想41-42
- 4.2 副本系数的选择42-44
- 4.3 数据节点数据结构的完善44-45
- 4.4 心跳协议方法的改进45-46
- 4.5 存储策略的优化46-49
- 4.6 本章总结49-51
- 第五章 Hadoop平台构建与实验分析51-57
- 5.1 Hadoop实验平台搭建51-54
- 5.2 实验验证与分析54-57
- 第六章 总结和展望57-59
- 6.1 总结57-58
- 6.2 展望58-59
- 参考文献59-63
- 攻读学位期间发表的论文63-65
- 致谢65
【相似文献】
中国期刊全文数据库 前10条
1 王汉林;谢荣传;;Native XML数据库——dbXML的存储策略的改进[J];计算机与现代化;2008年07期
2 罗英伟,邢彭龄;基于XML的地理信息元数据存储策略[J];计算机工程;2004年09期
3 门爱华;;基于关系数据库的XML数据的存储研究[J];赤峰学院学报(自然科学版);2006年03期
4 许丽;杨旭清;;基于关系数据库的RDFS存储研究[J];电脑与电信;2008年03期
5 杨守文;王婷;张国强;;论高校图书馆电子资源存储的经济适用型策略[J];情报探索;2010年04期
6 李占波;李娜;;XML数据在关系数据库中的存储[J];微计算机信息;2007年27期
7 陈光仪;蓝岚;;RDF存储策略的研究与实现[J];现代计算机(专业版);2008年04期
8 王晓刚;;基于关系数据库的XML存储技术[J];中国高新技术企业;2011年07期
9 李文学;;视频监控数据安全存储策略[J];广播电视信息;2011年06期
10 陈晓辉,周山,戚文芽;嵌入式数字视频监控系统的数据存储策略[J];微计算机信息;2005年10期
中国重要会议论文全文数据库 前10条
1 陈庆章;蔡绍华;陈晓莹;;使用链表实现无线传感器网络的省电数据存储策略[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
2 周志逵;刘菊玲;;Native XML DB存储策略的研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 俞本权;叶锋;王宁;陈滢;王能斌;;同构OIM对象及其存储策略[A];第十五届全国数据库学术会议论文集[C];1998年
4 王宏志;李建中;何震瀛;;一种压缩XML数据仓库的存储策略[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 何震瀛;李建中;王春宇;;一种XML数据库的存储结构——ASRX[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 楼文武;王珊;;数据仓库的综合数据优化存储策略[A];第十五届全国数据库学术会议论文集[C];1998年
8 邹晖华;胡吉全;杨艳芳;;自动化立体仓库货位分配策略优化研究[A];湖北省机械工程学会设计与传动学会、武汉机械设计与传动学会2008年学术年会论文集(2)[C];2008年
9 于利胜;张延松;王珊;张倩;;基于行存储模型的模拟列存储策略研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 寿志勤;崇大志;;四库建设中的元数据标准的确定与存储实现[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 郭涛 编译;制定云存储策略应注意的七个问题[N];中国计算机报;2011年
2 郭涛;简约存储 轻快起舞[N];中国计算机报;2003年
3 本报记者 郭平;整合软件与服务[N];计算机世界;2001年
4 本报记者 郭平;承诺背后的努力[N];计算机世界;2001年
5 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
6 小菲;追寻技术含量的冲浪者[N];计算机世界;2005年
7 傅蔷;IBM发布系统存储策略定“乾坤”[N];中国工业报;2005年
8 本报记者 郭平;Sun购并STK后的存储策略[N];计算机世界;2005年
9 中南林大理学院 旷岭 国防科大计算机学院 李永进 刘军;版本文件系统的虚拟存储策略[N];中国计算机报;2006年
10 北京亚细亚智业科技有限公司产品经理 张向辉;医疗影像的长期存储策略[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 董晓明;对象属性控制的存储策略研究[D];华中科技大学;2006年
2 杨希;智能网络磁盘(IND)存储管理方法研究[D];中南大学;2012年
3 王笑蓉;蚁群优化的理论模型及在生产调度中的应用研究[D];浙江大学;2003年
4 秦怀峰;面向感知网的上下文敏感计算技术研究[D];西北工业大学;2006年
5 李晓春;配送中心拣货作业设计与优化[D];暨南大学;2009年
6 吴承文;面向数据库的语义查询技术研究[D];浙江大学;2007年
7 廖伟志;混杂生产过程的混杂Petri网建模及分析技术研究[D];西安电子科技大学;2007年
8 蔚赵春;无线传感器网络中自适应数据存储与kNN查询处理研究[D];复旦大学;2008年
9 赵斌;基于图模型的微博数据分析与管理[D];华东师范大学;2012年
10 李志刚;无线传感器网络分布数据存储策略研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 高蓟超;Hadoop平台存储策略的研究与优化[D];北京交通大学;2012年
2 朱岩;Hadoop云存储策略的研究与优化[D];广东工业大学;2013年
3 王洋;仓库管理系统的存储策略研究[D];华中科技大学;2011年
4 蒋坚鸿;移动计算环境下检查点存储策略的研究[D];哈尔滨工程大学;2012年
5 邰建华;Hadoop平台下的海量数据存储技术研究[D];东北石油大学;2012年
6 朱震;内容管理实例设计及其XML存储策略的研究[D];中国科学院研究生院(软件研究所);2003年
7 范帆;Hadoop中基于优先级的调度算法研究[D];复旦大学;2012年
8 王光平;一个Native XML数据库——dbXML的存储策略研究与改进[D];西安电子科技大学;2005年
9 张烨;Jackrabbit封装Hadoop的研究及在内容管理系统中的应用[D];北京邮电大学;2011年
10 杨帆;Hadoop平台高可用性方案的设计与实现[D];北京邮电大学;2012年
本文关键词:Hadoop云存储策略的研究与优化,由笔耕文化传播整理发布。
本文编号:436523
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/436523.html