Hadoop云平台中调度策略研究
发布时间:2017-07-19 09:38
本文关键词:Hadoop云平台中调度策略研究
更多相关文章: Hadoop 任务调度 数据本地性 SDN LATE
【摘要】:在大数据时代,传统数据计算和数据存储能力已经无法满足不断增长变化的需求,云计算技术应运而生。其中,Hadoop是从Google云计算技术中衍生而来的开源实现,并成为了Apache基金会的顶级项目,为大数据时代注入了强大的云计算中坚力量。然而,随着Hadoop持续改进,集群规模迅速增长,集群资源(网络、存储等资源)逐渐成为系统瓶颈。研究调度策略就是从资源管理及分配的角度对Hadoop系统进行研究和改进。本文主要工作由两部分组成,分别是基于数据本地性的Reduce任务调度策略和基于带宽感知的备份任务调度策略。1.基于数据本地性的Reduce任务调度策略。在MapReduce阶段,集群网络中主要有两种数据流,分别是shuffle远程拷贝数据和慢任务迁移,这两种重叠的突发式数据传输可能会形成网络瓶颈。为降低远程拷贝数据量,结合数据本地性原理,建立了网络资源消耗计算模型(MNRC)。它用于评估Reduce任务节点的网络资源消耗量。基于此模型,为Reduce任务设计了以网络资源消耗代价为参考的延时调度策略。最后,设计仿真实验加以验证,改进策略减少了shuffle阶段跨机架的数据传输量,在异构集群中网络资源节省平均效率为7.5%。2.基于带宽感知的备份任务调度策略。在LATE机制中部分备份任务并不比原始慢任务更早结束,这不仅无法缩短任务运行时间,而且浪费了系统资源。本文在LATE备份任务调度中加入慢任务剩余时间与备份任务运行时间的对比。其中,备份任务的运行时间包含了输入数据的网络传输时间,带宽为相应链路的实时带宽。基于此改进思路,本文首次将SDN与备份任务调度相结合,提出了基于SDN带宽感知的备份任务运行时间估计模型(BWRE),利用此模型较准确的预估备份任务运行时间。并且,利用SDN带宽保障为备份任务拷贝输入数据保障带宽。最后,设计仿真实验加以验证,相对于LATE机制,在作业周转时间方面平均缩短了9.85%。
【关键词】:Hadoop 任务调度 数据本地性 SDN LATE
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP393.09
【目录】:
- 摘要3-4
- Abstract4-8
- 第1章 引言8-17
- 1.1 研究背景及意义8-10
- 1.2 国内外研究现状10-15
- 1.2.1 Hadoop作业调度算法及框架设计10-12
- 1.2.2 MapReduce任务调度策略优化12-14
- 1.2.3 Hadoop备份任务推测执行机制改进14-15
- 1.3 研究内容及创新点15-16
- 1.4 论文组织结构16-17
- 第2章 相关核心技术概要17-28
- 2.1 Hadoop核心技术17-21
- 2.1.1 Hadoop系统架构和集群部署17-19
- 2.1.2 Hadoop Distributed File System19-21
- 2.1.3 MapReduce21
- 2.2 Hadoop作业执行及调度框架21-25
- 2.2.1 作业执行过程22-23
- 2.2.2 作业调度框架23-25
- 2.3 SDN技术核心25-27
- 2.3.1 SDN介绍25-26
- 2.3.2 OpenFlow交换机26-27
- 2.3.3 OpenFlow控制器27
- 2.4 本章小结27-28
- 第3章 基于数据本地性的Reduce任务调度策略28-48
- 3.1 MapReduce任务执行及调度策略28-32
- 3.1.1 任务执行过程28-30
- 3.1.2 任务调度策略30-32
- 3.2 基于数据本地性的Reduce任务调度策略32-41
- 3.2.1 问题描述32-34
- 3.2.2 网络资源消耗计算模型(MNRC)34-36
- 3.2.3 基于MNRC的Reduce任务调度策略36-41
- 3.3 仿真实验41-47
- 3.3.1 实验方法41-43
- 3.3.2 实验结果与分析43-47
- 3.4 本章小结47-48
- 第4章 基于带宽感知的备份任务调度策略48-64
- 4.1 Hadoop备份任务推测执行机制48-50
- 4.2 基于带宽感知的备份任务调度策略50-57
- 4.2.1 问题描述50-51
- 4.2.2 基于BWRE的备份任务调度策略51-57
- 4.3 仿真实验57-63
- 4.3.1 实验方法57-58
- 4.3.2 实验结果与分析58-63
- 4.4 本章小结63-64
- 第5章 全文总结与展望64-66
- 参考文献66-71
- 致谢71-72
- 攻读硕士学位期间从事的科研工作及取得的成果72
【参考文献】
中国期刊全文数据库 前7条
1 左青云;陈鸣;赵广松;邢长友;张国敏;蒋培成;;基于OpenFlow的SDN技术研究[J];软件学报;2013年05期
2 许丞;刘洪;谭良;;Hadoop云平台的一种新的任务调度和监控机制[J];计算机科学;2013年01期
3 余正祥;;基于学习方式对Hadoop作业调度的改进研究[J];计算机科学;2012年S1期
4 李丽英;唐卓;李仁发;;基于LATE的Hadoop数据局部性改进调度算法[J];计算机科学;2011年11期
5 覃雄派;王会举;杜小勇;王珊;;大数据分析——RDBMS与MapReduce的竞争与共生[J];软件学报;2012年01期
6 李乔;郑啸;;云计算研究现状综述[J];计算机科学;2011年04期
7 刘黎明;;云计算起源探析[J];电信网技术;2010年09期
,本文编号:562253
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/562253.html