Hadoop平台的作业调度算法研究与改进
发布时间:2017-08-24 20:26
本文关键词:Hadoop平台的作业调度算法研究与改进
更多相关文章: Hadoop 作业调度 Reduce任务 资源利用率 数据本地性
【摘要】:随着云计算技术的发展成熟,云计算为企业提供了一种大数据的解决方案。Hadoop是Apach e组织下的一种开源分布式云计算框架的实现,由于其具有高可靠性、高扩展性以及高容错性等优点,被诸多企业广泛地用于大数据的处理。MapReduce是Hadoop对数据进行分布式处理的核心组件,其作业调度算法决定了MapReduce的性能,影响到整个Hadoo p系统的性能。目前,现有的Hadoop作业调度算法中Reduce任务调度算法过于简单,制约了Hadoop系统性能的提升。一方面,存在小作业Reduce任务的饥饿以及较低的资源利用率的问题,另一方面,没有考虑到Reduce任务的数据本地性的优化。 本文针对Hadoop平台作业调度算法展开了研究,并对其Reduce任务调度算法进行了优化。本文的主要工作如下: 1)深入分析了小作业Reduce任务的饥饿以及较低的资源利用率的问题,提出了一种任务时间估计模型,并基于此模型提出了一种改进算法SBOTM (Scheduler Based On Time Model),将SBOTM算法的实现嵌入到当前比较流行的公平调度器中,通过与原生的公平调度器比较,该算法有效地改善了小作业Reduce任务的饥饿问题,提高了作业的执行效率,并一定程度上提高了资源利用率。 2)深入分析了Reduce任务的数据本地性问题,并提出了一种延迟调度算法DSORT (Delay Scheduler Of Reduce Task),将延迟调度的思想应用到Reduce任务的数据本地性的优化上,并将DSORT的实现嵌入公平调度器中,最后,通过与原生的公平调度器比较,该算法大大提高了Reduce任务的数据本地性,减少了网络传输开销,缩短了作业的执行时间。 本文提出的算法有效地改善了Hadoop自带的Reduce任务调度算法,提高了作业的执行效率,优化了Reduce任务的数据本地性,降低了网络传输代价,并且算法具好扩展性,可移植到其他的调度器当中。
【关键词】:Hadoop 作业调度 Reduce任务 资源利用率 数据本地性
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP301.6
【目录】:
- 摘要5-6
- ABSTRACT6-7
- 目录7-9
- 表格9-10
- 插图10-12
- 第1章 绪论12-20
- 1.1 研究背景12-15
- 1.1.1 云计算的基本概念12-14
- 1.1.2 分布式计算框架概述14-15
- 1.2 研究现状15-18
- 1.3 本文的研究内容18
- 1.4 本文的内容结构18-20
- 第2章 Hadoop平台及相关技术20-34
- 2.1 Hadoop概述20
- 2.2 Hadoop的系统架构20-27
- 2.2.1 HDFS分布式文件系统22-23
- 2.2.2 MapReduce并行处理框架23-27
- 2.3 MapReduce作业调度算法27-31
- 2.3.1 作业调度算法概述27-28
- 2.3.2 FIFO调度算法28
- 2.3.3 计算能力调度算法28-29
- 2.3.4 公平调度算法29-31
- 2.4 Hadoop生态系统31-32
- 2.5 本章小结32-34
- 第3章 基于任务时间的Reduce任务调度优化34-44
- 3.1 MapReduce作业执行过程34-35
- 3.2 小作业的Reduce饥饿问题35-36
- 3.3 基于任务时间的Reduce任务调度算法:SBOTM36-40
- 3.3.1 任务时间评估模型37-38
- 3.3.2 算法描述38-40
- 3.4 实验评估40-43
- 3.4.1 实验环境40
- 3.4.2 实验结果40-43
- 3.5 本章小结43-44
- 第4章 Reduce任务数据本地性优化44-58
- 4.1 Hadoop作业调度本地化概述44-46
- 4.1.1 Map任务选择策略44-45
- 4.1.2 Reduce任务选择策略45
- 4.1.3 Hadoop的网络拓扑结构45-46
- 4.2 Reduce任务本地性问题分析46-47
- 4.3 Reduce任务本地性优化47-53
- 4.3.1 Reduce任务本地化相关定义48
- 4.3.2 Reduce任务的延迟调度算法DSORT48-50
- 4.3.3 DSORT算法实现50-53
- 4.4 实验评估53-57
- 4.4.1 实验设置53-54
- 4.4.2 实验结果与分析54-57
- 4.5 本章小结57-58
- 第5章 总结与展望58-60
- 5.1 本文总结58
- 5.2 研究展望58-60
- 参考文献60-64
- 致谢64-66
- 在读期间发表的学术论文与取得的其他研究成果66
- 攻读硕士学位期间参与的科研课题66
【参考文献】
中国期刊全文数据库 前5条
1 孙健;贾晓菁;;Google云计算平台的技术架构及对其成本的影响研究[J];电信科学;2010年01期
2 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
3 刘再明;;腾讯云上的开放游戏生态圈——专访腾讯云计算公司总裁陈磊[J];互联网周刊;2014年16期
4 余望枝;朱少强;;BBS论坛与百度知道的信息评价机制探讨[J];图书馆学研究;2008年12期
5 牛禄青;;阿里云:创新云计算[J];新经济导刊;2013年03期
,本文编号:732973
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/732973.html