HDFS高可用性方案的优化与实现
发布时间:2020-12-09 04:47
随着互联网的蓬勃发展,越来越多的数据在后台服务器中产生。如何科学地存储这些海量数据成了当前行业面临的挑战之一。近些年,随着大数据技术的迭代与发展,分布式文件存储系统HDFS(Hadoop Distributed File System)得到了业界广泛的认可与应用。但当前版本的HDFS为了保证系统的高可用性所采用的主-从架构的多副本机制只能刚刚满足了基本功能需求,在应对单点故障和数据存储利用率这两个方面还存在着不少优化空间。针对上述两个问题,本文做了以下工作:(1)提出了一种基于局部校验纠删码算法的HDFS数据存储策略。通过对HDFS当前版本的研究与分析,系统采用的是对原始数据创建副本的方式来避免因某些节点失效而导致的数据丢失问题。不难看出,在今天这个信息量俱增的互联网时代,副本策略需要消耗大量的底层硬件存储设备。所以本文提出一种基于局部校验纠删码算法的HDFS数据存储策略。该算法相较于副本策略能够显著降低磁盘的存储开销,而在对失效数据的重构过程又不像RS编码一样需要从各个网络节点中拉取所有剩余数据,与EVENODD编码与X编码这一类阵列码相比,改进算法在数据节点的个数上设置更加灵活。(...
【文章来源】:南京邮电大学江苏省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
编码时间在图3.6中,图的横坐标为文件大小,纵坐标为编码时间
图 3.7 单个数据块丢失文件重构时间 3.7 所示,范德蒙德 RS 编码在单个数据块丢失后重构原数据所耗费的时间码相较于范德蒙德 RS 编码,有一定的优化。而得益于分组校验思想的 H在重构原数据时不需要从各个网络节点上拉取所有剩余文件分块,从而获小结先介绍了两种当前最常用的保障数据可靠性的冗余策略,分别是备份策略解释了为什么云计算、大数据领域在底层数据存储方面更适合采用基于纠略。接着介绍了一种在分布式存储领域中常用的纠删码算法——RS 纠删码不同,它又分为范德蒙德 RS 编码和柯西 RS 编码,并陈述了其各自的优缺础上设计实现了一种 HDFS-LRC 局部校验算法。该算法可以在分组中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保证最终赢得选举的 NameNode 服务器拥有比大多数投票者更完整的日志记录。经过上面步骤选举出领导者 NameNode 后,新的领导者 NameNode 会不断地向跟随ameNode 发送包含自己日志信息的心跳消息。跟随者 NameNode 根据接收到的心跳消息除所有跟领导者 NameNode 不同的日志记录,并将所有丢失的日志记录依照领导者的日行补足。.4主备节点切换测试在同一台服务器上,分别对 Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 个不同数量级的文件上进行了多备节点切换测试,切换时间对比情况如图 4.7 所示。
【参考文献】:
期刊论文
[1]基于Hadoop的云计算平台研究与实现[J]. 范素娟,田军锋. 计算机技术与发展. 2016(07)
[2]云计算环境下的分布存储关键技术研究[J]. 张乐. 电子技术与软件工程. 2015(23)
[3]基于内存云架构的带宽负载均衡算法[J]. 刘建矿,于炯,英昌甜,鲁亮. 计算机工程与设计. 2015(11)
[4]基于范德蒙码的HDFS优化存储策略研究[J]. 宋宝燕,王俊陆,王妍. 计算机学报. 2015(09)
[5]利用Zookeeper对HDFS中Namenode单点失败的改进方法[J]. 鲁阳,郑岩. 软件. 2012(12)
[6]Namenode单点故障解决方案研究[J]. 邓鹏,李枚毅,何诚. 计算机工程. 2012(21)
[7]分布式文件系统中元数据管理机制的研究[J]. 蒙安泰. 电脑知识与技术. 2011(35)
硕士论文
[1]HDFS高可用性方案的研究与优化[D]. 韩佩.西北大学 2013
[2]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
本文编号:2906299
【文章来源】:南京邮电大学江苏省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
编码时间在图3.6中,图的横坐标为文件大小,纵坐标为编码时间
图 3.7 单个数据块丢失文件重构时间 3.7 所示,范德蒙德 RS 编码在单个数据块丢失后重构原数据所耗费的时间码相较于范德蒙德 RS 编码,有一定的优化。而得益于分组校验思想的 H在重构原数据时不需要从各个网络节点上拉取所有剩余文件分块,从而获小结先介绍了两种当前最常用的保障数据可靠性的冗余策略,分别是备份策略解释了为什么云计算、大数据领域在底层数据存储方面更适合采用基于纠略。接着介绍了一种在分布式存储领域中常用的纠删码算法——RS 纠删码不同,它又分为范德蒙德 RS 编码和柯西 RS 编码,并陈述了其各自的优缺础上设计实现了一种 HDFS-LRC 局部校验算法。该算法可以在分组中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保证最终赢得选举的 NameNode 服务器拥有比大多数投票者更完整的日志记录。经过上面步骤选举出领导者 NameNode 后,新的领导者 NameNode 会不断地向跟随ameNode 发送包含自己日志信息的心跳消息。跟随者 NameNode 根据接收到的心跳消息除所有跟领导者 NameNode 不同的日志记录,并将所有丢失的日志记录依照领导者的日行补足。.4主备节点切换测试在同一台服务器上,分别对 Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 个不同数量级的文件上进行了多备节点切换测试,切换时间对比情况如图 4.7 所示。
【参考文献】:
期刊论文
[1]基于Hadoop的云计算平台研究与实现[J]. 范素娟,田军锋. 计算机技术与发展. 2016(07)
[2]云计算环境下的分布存储关键技术研究[J]. 张乐. 电子技术与软件工程. 2015(23)
[3]基于内存云架构的带宽负载均衡算法[J]. 刘建矿,于炯,英昌甜,鲁亮. 计算机工程与设计. 2015(11)
[4]基于范德蒙码的HDFS优化存储策略研究[J]. 宋宝燕,王俊陆,王妍. 计算机学报. 2015(09)
[5]利用Zookeeper对HDFS中Namenode单点失败的改进方法[J]. 鲁阳,郑岩. 软件. 2012(12)
[6]Namenode单点故障解决方案研究[J]. 邓鹏,李枚毅,何诚. 计算机工程. 2012(21)
[7]分布式文件系统中元数据管理机制的研究[J]. 蒙安泰. 电脑知识与技术. 2011(35)
硕士论文
[1]HDFS高可用性方案的研究与优化[D]. 韩佩.西北大学 2013
[2]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
本文编号:2906299
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2906299.html