基于存储驱动的Hadoop节能调度策略研究
发布时间:2017-09-09 18:43
本文关键词:基于存储驱动的Hadoop节能调度策略研究
更多相关文章: 绿色计算 大数据分析 Hadoop HDFS 存储策略
【摘要】:二十一世纪是信息的时代,信息传输伴随着数据量的增加,人们逐渐发现隐含在这些海量数据下的价值,于是用于分析处理海量数据的平台应运而生,Hadoop便是这其中最经典的海量数据处理框架。Hadoop需要构建一个庞大的数据节点集群,通过HDFS,Yarn,Map Reduce等组件实现海量数据的高效并行计算。然而近年来二氧化碳等温室气体的排放量逐年增加,导致了全球温室效应日益严重,与此同时大规模数据中心需要庞大的服务器集群作为支撑,以及大规模的制冷设备会消耗大量的能量以及企业成本开销,使得数据中心的节能减排问题越来越受到重视,基于这些原因使得Hadoop节能研究变得十分必要。本文通过对Hadoop自带的随机选择存储策略和磁盘轮询存储策略两种副本存储策略深入剖析,找出两种策略在能耗控制方面的缺陷,同时结合数据本地化的Hadoop任务调度原则,本文提出一种策略,即通过数据本地化原则将任务的调度问题转化为数据块副本的调度问题,创新的设计出一种基于存储驱动的Hadoop节能调度策略,同时构建出两层副本存储策略来控制集群负载均衡以及能量消耗,作为本文设计的节能调度策略的核心。本文设计的节能策略可以实现Hadoop集群任务的运行时间和总体能耗两个维度上的节能。该策略核心是两层副本存储策略。其中第一层副本存储策略根据数据节点磁盘的剩余容量,读写操作引用数实现两层算法,通过实现负载均衡提高集群整体性能,从而减少任务的运行时间。第二层副本存储策略主要考虑任务本身的种类特征以及任务所在数据节点的实时状态,通过对任务特征任务与数据节点的实时状态进行匹配,使任务被分配到能耗最少的数据节点上执行,从而达到减少集群能耗的目的。最后本文通过Xen Server平台搭建了具有32个数据节点的Hadoop集群环境,首先通过两组实验得出了本文设计的能量度量模型理论推导公式的近似参数,接下来将本文设计的节能调度策略与Hadoop自带的随机选择和磁盘轮询存储策略相对比,用三组对比实验证明了本文设计的节能调度策略在控制数据节点磁盘负载均衡方面具有较好地调节能力,可以相对减少Hadoop集群任务的总体运行时间,并且可以有效降低Hadoop集群的能量消耗。
【关键词】:绿色计算 大数据分析 Hadoop HDFS 存储策略
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP333
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 课题背景10-11
- 1.2 国内外研究现状11-13
- 1.2.1 硬件层面节能技术11
- 1.2.2 软件层面节能技术11-13
- 1.3 课题的主要工作13-14
- 1.4 论文的内容安排14-15
- 第2章 Hadoop HDFS相关背景介绍15-21
- 2.1 Hadoop HDFS分布式存储系统剖析15-19
- 2.2 Hadoop任务调度的数据本地化原则19-20
- 2.3 本章小结20-21
- 第3章 HDFS数据节点副本存放策略研究21-31
- 3.1 机架感知策略的原理与实现21-23
- 3.1.1 机架感知策略的原理21-22
- 3.1.2 机架感知策略的实现22-23
- 3.2 随机选择存储策略剖析23-27
- 3.3 磁盘轮询存储策略剖析27-30
- 3.4 Hadoop自带存储策略弊端分析30
- 3.5 本章小结30-31
- 第4章 基于存储驱动的Hadoop节能调度设计与实现31-52
- 4.1 总体设计分析31-35
- 4.1.1 节能调度框架设计31-33
- 4.1.2 节能调度设计目标33-35
- 4.2 Block指定发送模块35-40
- 4.2.1 文件数据块发送过程剖析35-38
- 4.2.2 Block指定发送模块实现38-40
- 4.3 能耗监测模块40-44
- 4.3.1 能耗数据的收集40-43
- 4.3.2 能量度量模型的构建43-44
- 4.3.3 任务能耗计算模型的构建44
- 4.4 第一层副本存储策略及实现44-49
- 4.4.1 剩余容量存储算法及实现44-47
- 4.4.2 引用计量存储算法及实现47-49
- 4.5 第二层副本存储策略49-51
- 4.5.1 能量特征点的提取与匹配模型构建49-50
- 4.5.2 任务与数据节点匹配模块50-51
- 4.6 本章小结51-52
- 第5章 实验及结果分析52-66
- 5.1 Hadoop集群环境搭建52-54
- 5.1.1 Xen Server云平台的构建52-53
- 5.1.2 Hadoop虚拟机集群配置53-54
- 5.2 实验过程54-65
- 5.2.1 能量度量模型验证54-59
- 5.2.2 三种策略对比实验方案59-60
- 5.2.3 实验结果及分析60-65
- 5.3 实验结论65
- 5.4 本章小结65-66
- 结论66-68
- 参考文献68-72
- 攻读学位期间发表的学术论文72-74
- 致谢74-75
本文编号:822126
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/822126.html