HDFS分布式文件系统数据放置均衡研究
本文关键词:HDFS分布式文件系统数据放置均衡研究,,由笔耕文化传播整理发布。
【摘要】:随着Internet规模扩大和信息化的提高,对于海量大数据的存储,人们越来越依赖云存储分布式文件系统。HDFS作为分布式文件系统的典型代表,它运用副本管理策略来提高集群的可用性和容错性有着无可比拟的优势。然而对副本管理策略的研究处于初始阶段,副本创建、维护副本一致性和负载均衡等都是目前计算机存储技术领域中的重要研究课题。副本创建包括副本个数、副本放置位置和创建时机等。在HDFS运行过程中,它的副本放置位置规则可以通过副本放置策略来进行实现,然而在现有的副本放置策略中,HDFS默认副本放置策略假设集群是同构的并随机选择节点,它没有考虑节点可用存储空间的情况,即使有一个节点可用存储空间远小于其他节点,该节点仍然有概率继续存储数据块副本。另外如果客户端所在节点属于HDFS集群,默认策略优先将第一个数据块副本放置在该客户端,它并没有考虑该客户端的可用存储空间情况,如果某一客户端一直向HDFS上传文件,这个客户端可用存储空间会变得很小。默认策略的结果是造成存储节点可用存储空间差异性,产生可用存储空间不足的节点,这些节点可能由于存储空间不足造成该节点存储数据块副本或者执行MapReduce任务失败。默认策略也不能均衡节点网络负载,当集群中文件被大量读取或者写入时,会增加相关节点网络负载,默认策略不能将新数据块副本存储在网络负载小的节点,分散某些节点的网络负载,减少存储数据块副本的等待时间。因此,本文重点针对HDFS副本创建策略中的副本放置策略这个科学问题进行了系统的研究,本文所做的主要工作和创新点如下:(1)提出了一种可用存储空间敏感的副本放置策略。针对HDFS默认副本放置策略不能匹配节点可用存储空间和数据块放置数量的不足,可用存储空间敏感的副本放置策略根据实时采集的节点可用存储空间和节点访问连接数,按照基于可用存储空间和访问连接数的节点评价值数学模型计算节点的评价值,将该评价值作为管理节点选择存储节点的标准,将每个数据块副本存储在最佳副本存储节点上。实验结果表明,可用存储空间敏感的副本放置策略通过在不同可用存储空间的节点上进行针对性数据块副本放置,实现了匹配节点可用存储空间与数据块放置数量,避免了可用存储空间不足节点产生,大大降低了节点由于可用存储空间不足而存储数据块副本失败和执行MapReduce任务失败的可能性。(2)提出了一种网络负载敏感的副本均衡策略。针对HDFS默认副本放置策略在有大量文件访问和写入时,不能将网络数据流量分担到多个节点,无法均衡节点网络负载问题,网络负载敏感的副本均衡策略通过周期性探测存储节点的网卡信息,将各个存储节点一段时间内的收发数据块数量作为衡量网络负载的指标,在存储数据块副本时,综合考虑了节点网络负载和可用存储空间两个目标,当机架中高网络负载节点与低网络负载节点平均存储空间差值超过5G时,选择机架中可用存储空间最大的节点存储数据块副本,如果不超过5G,则随机选择一个低网络负载节点存储数据块副本。通过实验验证了网络负载敏感的副本均衡策略通过对高网络负载节点与低网络负载节点平均存储空间的比较,实现了均衡网络负载,避免了节点由于高网络负载而延长存储数据块等待时间。
【关键词】:HDFS 数据块副本 可用存储空间 网络负载
【学位授予单位】:河南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP316.4;TP333
【目录】:
- 致谢4-5
- 摘要5-7
- Abstract7-11
- 1 绪论11-21
- 1.1 研究背景与意义11-13
- 1.2 国内外研究现状及存在问题13-18
- 1.2.1 HDFS的数据块放置方法13-16
- 1.2.2 其他文件系统数据块放置方法16-18
- 1.2.3 存在问题18
- 1.3 论文的主要工作及特色18-19
- 1.4 论文组织结构19-21
- 2 分布式文件系统数据放置策略21-31
- 2.1 HDFS分布式文件系统原理21-22
- 2.2 数据块放置策略22-26
- 2.3 数据块均衡策略26-28
- 2.4 存在问题28-30
- 2.5 本章小结30-31
- 3 可用存储空间敏感的副本放置算法31-49
- 3.1 问题分析31-32
- 3.2 算法设计32-38
- 3.2.1 算法原理33-35
- 3.2.2 算法描述35-38
- 3.3 算法实现38-43
- 3.3.1 相关类及方法介绍38-39
- 3.3.2 选择第一个副本的存储节点39-42
- 3.3.3 选择第二个副本的存储节点42
- 3.3.4 选择第三个副本的存储节点42-43
- 3.4 实验43-49
- 3.4.1 实验环境43
- 3.4.2 结果分析43-49
- 4 网络负载敏感的副本均衡算法49-65
- 4.1 问题分析49-50
- 4.2 算法设计50-54
- 4.2.1 算法原理50-51
- 4.2.2 算法描述51-54
- 4.3 算法实现54-59
- 4.3.1 相关类及方法介绍55-57
- 4.3.2 选择第一个副本的存储节点57-58
- 4.3.3 选择第二个副本的存储节点58-59
- 4.3.4 选择第三个副本的存储节点59
- 4.4 实验59-65
- 4.4.1 实验环境60
- 4.4.2 结果分析60-65
- 5 总结与展望65-67
- 5.1 全文总结65-66
- 5.2 展望66-67
- 参考文献67-71
- 作者简介71-73
- 学位论文数据集73
【相似文献】
中国期刊全文数据库 前10条
1 唐晓华,宋杰,卢显良,江春华;一种网络负载发生器的设计[J];福建电脑;2005年04期
2 黄欣,杨帆;网络负载平衡技术应用[J];辽阳石油化工高等专科学校学报;2002年04期
3 王丽,李敬有,王岩;面向工作站群机系统的网络负载预测[J];齐齐哈尔大学学报;2000年03期
4 王莉;;站点部署的最佳实践方法——蜂窝网络负载分流[J];电信网技术;2012年04期
5 胡永培,卢显良;网络负载分流器的实现技术[J];计算机应用;2001年04期
6 陆俊;祁兵;;多蚁群算法的网络负载动态均衡方法[J];计算机应用;2008年03期
7 车驾雄;以太网网络负载讨论[J];计算机工程;2000年08期
8 王宇坤;胡_g;;基于多出口链路网络负载平衡模型研究[J];茂名学院学报;2007年03期
9 沈富可;张卫;常潘;;应用时间序列分析进行网络负载预测[J];中山大学学报(自然科学版);2009年S1期
10 金正谊,汪溟,白英彩;自动切换混合型MAC的分析与研究[J];小型微型计算机系统;1994年10期
中国重要会议论文全文数据库 前1条
1 赵水宁;邵军力;;Web服务器的网络负载评价和检测[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
中国重要报纸全文数据库 前1条
1 Linnan;网络负载均衡的实现[N];电脑报;2004年
中国硕士学位论文全文数据库 前3条
1 丁扬;HDFS分布式文件系统数据放置均衡研究[D];河南理工大学;2014年
2 胡永培;网络负载平衡系统的设计与实现[D];电子科技大学;2001年
3 薛涛;认知无线网络负载管理方法的研究与实现[D];西安电子科技大学;2014年
本文关键词:HDFS分布式文件系统数据放置均衡研究,由笔耕文化传播整理发布。
本文编号:336344
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/336344.html