数据局部性感知的Hadoop任务调度器

发布时间:2017-08-09 16:20

  本文关键词:数据局部性感知的Hadoop任务调度器


  更多相关文章: 大数据 Hadoop 数据局部性 任务调度


【摘要】:任务调度是分布式并行计算平台,如Hadoop、Dryad等,最核心的功能。任务调度结果的优劣极大地影响着系统吞吐率、计算集群的资源利用率以及作业的性能。同时,由于计算集群的异构性、负载的动态可变性以及任务特征的多样性等原因,也使得调度问题成为了分布式集群中最困难的问题之一。本文在大量地研究了当前的分布式并行计算平台中的各种调度算法的基础上,深入研究了当前Hadoop系统中的任务调度算法的优缺点,特别针对MapReduce的资源再分配过程进行了改进和优化:1)针对当前Hadoop系统在Map任务的调度时采用的基于队列的任务调度方式所存在的缺点(数据本地化程度不能达到最佳),将调度问题重新映射为一个流网络并且通过对流网络的最大流求解,以获得在节省网络开销方面更优的调度方案。2)在1)的基础上对算法进一步细化和改进,考虑任务对节点的偏好度,以达到进一步降低网络开销的目的。3)核心路由器的带宽往往是限制数据传输速率的最主要的因素,本文通过改进MapReduce中Reduce任务调度方式,降低了Shuffle阶段跨机架的网络数据传输量,节省了核心路由器宝贵的带宽资源。最后,通过实际的Hadoop实验环境对本文所提出的调度模型和算法的有效性与高效性进行了验证。实验结果表明,该算法在降低MapReduce应用的网络数据传输量方面表现优异。
【关键词】:大数据 Hadoop 数据局部性 任务调度
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要8-9
  • Abstract9-10
  • 1 绪论10-16
  • 1.1 研究背景和意义10-11
  • 1.2 国内外研究现状11-13
  • 1.3 本文主要工作13-14
  • 1.4 论文内容结构14-16
  • 2 Hadoop项目简介16-23
  • 2.1 MRv1简介16
  • 2.2 MRv2介绍16-23
  • 2.2.1 Hadoop分布式文件系统17
  • 2.2.2 Hadoop YARN17-19
  • 2.2.3 Hadoop MapReduce19-23
  • 3 Hadoop任务调度算法23-30
  • 3.1 split & block23-24
  • 3.2 计算split的位置24-25
  • 3.3 资源申请25-26
  • 3.4 分配资源26-27
  • 3.5 资源再分配27-30
  • 4 数据局部性感知的Hadoop任务调度算法30-41
  • 4.1 Map任务调度优化30-37
  • 4.1.1 当前的Map任务调度算法分析30-31
  • 4.1.2 数据局部性感知的Map任务调度算法31-35
  • 4.1.3 对Map任务调度算法的进一步优化35-37
  • 4.2 Reduce任务调度优化37-41
  • 4.2.1 当前的Reduce任务调度算法分析37-39
  • 4.2.2 数据局部性感知的Reduce任务调度算法39-41
  • 5 实验评估41-52
  • 5.1 度量标准41-42
  • 5.2 Benchmark42
  • 5.3 实验环境及其他说明42-44
  • 5.4 实验结果分析44-52
  • 5.4.1 平均数据传输量45-47
  • 5.4.2 平均作业完成时间47-49
  • 5.4.3 平均调度时间49
  • 5.4.4 带宽利用率49-52
  • 6 总结与展望52-54
  • 6.1 论文工作总结52
  • 6.2 未来工作展望52-54
  • 参考文献54-57
  • 攻读硕士期间发表的论文和申请的专利57-58
  • 致谢58

【相似文献】

中国期刊全文数据库 前7条

1 王振江;武成岗;张兆庆;;提高堆数据局部性的动态池分配技术[J];计算机学报;2011年04期

2 刘奎;刘向东;马宝来;王翠荣;;基于数据局部性的推测式Hadoop任务调度算法研究[J];计算机应用研究;2014年01期

3 杨学军,戴华东,夏军;多处理器系统中的数据局部性及其优化技术研究[J];中国工程科学;2002年05期

4 李丽英;唐卓;李仁发;;基于LATE的Hadoop数据局部性改进调度算法[J];计算机科学;2011年11期

5 金国华,,陈福接;循环扭曲技术的再认识[J];电子学报;1994年05期

6 胡长军;张纪林;王珏;李建江;;迭代空间交错条块并行Gauss-Seidel算法[J];软件学报;2008年06期

7 ;[J];;年期

中国博士学位论文全文数据库 前1条

1 王小海;常数度P2P系统负载均衡与拓扑优化技术研究[D];国防科学技术大学;2010年

中国硕士学位论文全文数据库 前3条

1 曾令;数据局部性感知的Hadoop任务调度器[D];西北师范大学;2015年

2 谷晓铭;全局循环合并的实现[D];中国科学院研究生院(计算技术研究所);2006年

3 肖之慰;面向多核集群的层次化MapReduce模型的设计与实现[D];复旦大学;2012年



本文编号:646201

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/646201.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3b442***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com