当前位置:主页 > 科技论文 > 计算机论文 >

基于HDFS存储系统的数据复制技术研究

发布时间:2020-03-24 04:18
【摘要】:云计算机系统是一种分布式系统,分布式计算是云计算的基础模型。通常用分布式存储系统来支撑高效的分布式计算,而常用的数据复制技术,例如三副本策略、纠删码技术,都可以用来提高分布式系统的可靠性、可用性以及扩展性。HDFS(Hadoop Distributed File System)是由Apache基金会开发的分布式文件系统。HDFS存储系统的三副本策略会占用大量的存储资源并有可能耗光所有存储空间,数据因热度增加导致需求增加,固定的副本策略无法无法维持数据的高可用性,并且会使得节点负载失衡。系统采用纠删码技术来解决存储系统资源消耗过多过快的问题,但需要消耗大量的网络带宽去和数据节点交互,下载恢复文件所需的数据块,对数据块进行解码操作恢复成原数据的过程中,都需要消耗CPU资源、内存资源,资源消耗代价较高。为了解决HDFS存储系统中出现的问题,本文进行了相关研究。本文主要贡献如下:首先,根据副本调度影响因子,包括文件的热度值、静态影响因子,也考虑到文件的可用系数,设计了动态副本调度算法。通过分析副本调度影响因子,来求出副本需求数量,通过与现有副本数进行比较,进行动态调整,以适应因数据热度变化带来的副本需求变化。通过动态调节副本数量提高节点的可用性,依据文件的可用性,在节点过载时,主动增加节点来放置副本,保持了文件的高可用性,又保持了系统的负载平衡。当系统较空闲时,现有副本数大于需求的副本数,通过减少副本数,从而减少了资源的消耗,提供了系统资源的利用率。其次,为了解决好纠删码恢复数据块带来资源消耗代价较高的问题,本文通过对影响数据读取时延、影响系统负载平衡的各种性能指标进行分析,找出具有代表性的指标——系统吞吐量,并通过对节点的负载进行判断,而设计了多用户请求调度算法。该调度算法能够有效降低存储系统中用纠删码编码文件获得的平均时延,达到负载平衡优化的目的,还能够提高数据获取的稳定性,给用户更好的体验。最后,在HDFS分布式文件系统的基础上,采用了副本和纠删码混合存储策略。该策略采用纠删码技术提高了数据安全性,降低了存储成本;采用动态副本策略来调节分布式集群运行时对节点资源的利用,调节系统负载平衡,使数据保持高可用性。通过实验分析,本文采用的混合存储策略与HDFS原有的三副本策略相比,有更强的负载均衡能力、降低了存储成本、提高了安全性,使数据处于高可用状态。
【图文】:

集群存储,数据复制,模块组成,纠删码


图 2.3 集群存储系统中数据复制模型的模块组成2.5 本章小结本章介绍了数据复制相关的一些概念和技术,数据复制是一种增强系统性能的技术,可以提高系统的可用性,具有容错性。HDFS 存储系统中数据复制相关技术,HDFS 存储系统由一个 NameNode 和若干 DataNode 组成,系统采用多数据副本策略来存放热点数据,而采用纠删码来存储冷门数据作为 HDFS 系统的一种存储补充。对 HDFS 存储系统中副本存储策略和纠删码策略进行分析比较。最后对存储数据进行划分,本章采用数据的访问频度来区分热冷结点。

组成图,组成图,副本,纠删码


MICS 将一个数据对象进行两种形式的存储,,一种用纠删码。MICS 的纠删码部分引入了编码和译码模块数据块(block)进行编码,生成更多数量的数据分片( se中的随机数据节点上,比三副本策略具有更好的容灾能的情况下,收集与失效数据块相关的数据分片总量中任标数据节点上进行恢复操作,恢复成完整的原始数据。群运行情况以及对副本数目需求的不同采用动态副本策,MICS 与原 HDFS 实验比较得出,MICS 在容灾效率及安全性上对 HDFS 作了相应的优化。5.2 MICS 系统实现副本存储
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333

【参考文献】

相关期刊论文 前10条

1 宋宝燕;王俊陆;王妍;;基于范德蒙码的HDFS优化存储策略研究[J];计算机学报;2015年09期

2 廖彬;于炯;张陶;杨兴耀;;基于分布式文件系统HDFS的节能算法[J];计算机学报;2013年05期

3 郭向阳;;基于数据库复制技术的数据交换平台研究与实现[J];计算机与现代化;2011年08期

4 熊润群;罗军舟;宋爱波;金嘉晖;;云计算环境下QoS偏好感知的副本选择策略[J];通信学报;2011年07期

5 罗军舟;金嘉晖;宋爱波;东方;;云计算:体系架构与关键技术[J];通信学报;2011年07期

6 孙金津;朱玉全;陈耿;;基于重复热点数据的CF广播结构改进算法[J];计算机应用研究;2010年12期

7 付雄;王汝传;邓松;;数据网格中一种启发式副本放置算法[J];系统工程与电子技术;2010年07期

8 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期

9 刘德辉;周宁;尹刚;王怀民;邹鹏;;QFMA:一种支持负载均衡的多属性资源定位方法[J];计算机学报;2008年08期

10 郑静,卢锡城,王意洁;移动自组网中基于分簇的数据复制算法(英文)[J];软件学报;2005年08期

相关博士学位论文 前1条

1 孙海燕;数据网格副本管理关键技术研究[D];国防科学技术大学;2005年

相关硕士学位论文 前10条

1 梁成良;基于HDFS的轻量级数据安全存储的研究[D];南京邮电大学;2017年

2 刘文杰;云存储系统中数据复制研究[D];南京邮电大学;2017年

3 赵磊;基于HDFS默认副本选择机制的改进和实现[D];北京交通大学;2017年

4 管仲洋;基于纠删码的分布式文件系统数据块管理技术研究[D];电子科技大学;2017年

5 张程;基于HDFS的文件存储与读取的优化策略研究与应用[D];北京工业大学;2016年

6 李元超;面向冷数据存储的分布式编码技术研究与实现[D];华中科技大学;2016年

7 崔园;基于HDFS的分布式存储系统的研究与实现[D];电子科技大学;2016年

8 孟密密;基于HDFS的文件管理系统的设计与实现[D];东南大学;2016年

9 程名;面向海量数据的分布式文件系统设计和实现[D];华中科技大学;2010年

10 葛建清;异质结构化对等网络动态副本访问负载均衡策略研究[D];华东师范大学;2010年



本文编号:2597782

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2597782.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c7ccc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com