基于HDFS默认副本选择机制的改进和实现

发布时间:2018-01-07 22:08

  本文关键词:基于HDFS默认副本选择机制的改进和实现 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: HDFS 副本选择 心跳机制 负载均衡


【摘要】:随着人类社会快速的发展,人们日常生活产生了海量数据,传统的数据处理方法已不适合海量数据的分析处理,Hadoop应运而生。Hadoop有两个最核心的组成部分,分别是MapReduce和HDFS。MapReduce具有处理分析海量数据的能力,HDFS具有存储和管理海量数据的能力。HDFS的副本选择机制直接影响着数据的可靠性、可用性、均衡性和读取效率。由于HDFS默认副本选择机制选择副本的存放位置具有一定的随机性且未充分考虑数据节点的负载状况,进而出现HDFS数据分布不均匀和Hadoop集群负载不均衡等问题,本文对HDFS的默认副本选择机制进行改进和实现,主要包含以下方面:首先,本文提出根据数据节点当前的CPU使用率、内存使用率、磁盘IO使用率、磁盘使用率以及带宽使用率五个因素综合描述其在集群中的负载状况,这五个因素为数据节点负载状况的量化打下了基础。根据每种因素对数据节点负载影响的大小赋予其不同的权重值,量化数据节点负载状况的数值。其次,本文剖析DataNode到NameNode周期性心跳机制的原理,改进的副本选择机制利用心跳机制将影响数据节点负载的因素汇报给NameNode,使NameNode掌握整个集群数据节点的负载状况。通过对HDFS默认副本选择机制的分析,针对其存在的缺陷,根据每个数据节点、机架的负载状况以及集群中所有数据节点的平均负载状况,提出了对HDFS默认副本选择机制的改进方法。最后,编译修改后的HDFS源代码,搭建Hadoop集群环境,以本文改进的HDFS副本选择机制分别对低于三副本、三副本和大于三副本进行实验。经实验结果分析,表明改进的HDFS副本选择机制能够依据数据节点的负载状况选择最佳的副本存放位置,保证了数据的可靠性、可用性,均衡了数据在集群中的分布,提高了数据读写速度,改善了集群的负载均衡。
[Abstract]:With the rapid development of human society, the massive data of daily life, the traditional data processing methods is not suitable for the analysis of massive data processing, Hadoop.Hadoop comes with two of the most important core part, namely MapReduce and HDFS.MapReduce has the processing capability of huge amounts of data, a copy of HDFS has the ability to store and manage the massive data the.HDFS selection mechanism directly affects the reliability of data, availability, balance and reading efficiency. Because HDFS is the default copy selection mechanism selects the location with the copy machine and did not fully consider the load status of certain data nodes, and HDFS data distribution and Hadoop load imbalance problem, this paper the HDFS default replica selection mechanism for the improvement and implementation, mainly includes the following aspects: firstly, this paper according to the node The current CPU usage, memory usage, disk IO usage, disk usage and bandwidth utilization rate of five factors described in the cluster load conditions, the five factors for quantitative data node load of foundation. According to the influence of each factor on the size of the given node load data the different weights, numerical quantitative data of the node load. Secondly, this paper analyzes the principle of NameNode DataNode to the periodic heartbeat mechanism, improved replica selection mechanism using heartbeat mechanism will affect the reporting data to the NameNode node load factor, load condition to make NameNode master the entire cluster of data nodes. Through the analysis of the HDFS default replica selection the mechanism of the defects, according to each data node, the average load of all nodes and load data frame in the cluster, put forward to HDF The improved method of S default replica selection mechanism. Finally, the modified HDFS compiler source code, build Hadoop cluster environment, HDFS replica selection mechanism to the improved of less than three copies, three copies and more than three copies of the experiment. By the analysis of experimental results, show that the improved HDFS copy selection mechanism according to the data of nodes the load status of selecting the best replica location, to ensure the reliability of data, availability, balance the distribution of data in the cluster, improve the speed of reading and writing data, improve the cluster load balancing.

【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP333;TP393.09

【相似文献】

相关期刊论文 前10条

1 王先甲,匡小新;决策科学化与民主化的选择机制[J];科技进步与对策;2000年11期

2 罗云峰;基于相容信息的社会选择机制设计[J];科技进步与对策;2002年06期

3 张国华;黄烟波;;一种基于信誉的双向选择机制[J];计算机应用;2009年03期

4 谢觅之;;论大众媒介与文化选择机制[J];新闻界;2009年02期

5 周国强;曾庆凯;;基于选择机制的实体间最信任路径发现方法[J];北京工业大学学报;2010年05期

6 江海f;董平;秦雅娟;张宏科;张思东;;一种基于带宽估计的动态接入链路选择机制的研究与实现[J];铁道学报;2010年03期

7 贾维红;;计算机技术发展迅速的原因分析[J];黑龙江科学;2014年02期

8 郑秀峰;;区域限制下同质企业选择机制探讨——基于生态学视角的思考[J];经济与管理研究;2006年10期

9 陈皓;崔杜武;;族群进化算法的选择机制[J];计算机工程;2010年03期

10 申鸿烨;周东辉;王海深;郭晓淳;李维田;富钰;;流媒体镜像节点库选择机制的研究与实现[J];辽宁高职学报;2009年02期

相关会议论文 前1条

1 莫纯欢;石纯一;史忠植;陈青;周代琪;;进化算法中的各种选择机制的分析和比较[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年

相关重要报纸文章 前3条

1 赵振华;构建和谐企业与市场选择机制[N];中国石油报;2007年

2 大为;三大门户再融资与资本选择机制[N];中国石化报;2004年

3 刘平青 胡迟;企业家亚健康的双重选择机制[N];中国企业报;2005年

相关硕士学位论文 前7条

1 刘娜娜;面向协同提供的云服务选择机制研究[D];河南科技大学;2015年

2 赵磊;基于HDFS默认副本选择机制的改进和实现[D];北京交通大学;2017年

3 宋国庆;转型时期农村劳动力就业选择机制研究[D];华南师范大学;2005年

4 田驰;国有企业经营者选择机制研究[D];辽宁工程技术大学;2005年

5 白鑫茹;一种分级移动IPv6的MAP选择机制[D];华南理工大学;2013年

6 柳斌;基于SDN的WLAN接入技术研究[D];北京邮电大学;2014年

7 韩啸;刑法的价值选择机制[D];东北师范大学;2011年



本文编号:1394420

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1394420.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc412***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com