当前位置:主页 > 科技论文 > 软件论文 >

Hadoop平台的作业调度算法研究与改进

发布时间:2017-08-24 20:26

  本文关键词:Hadoop平台的作业调度算法研究与改进


  更多相关文章: Hadoop 作业调度 Reduce任务 资源利用率 数据本地性


【摘要】:随着云计算技术的发展成熟,云计算为企业提供了一种大数据的解决方案。Hadoop是Apach e组织下的一种开源分布式云计算框架的实现,由于其具有高可靠性、高扩展性以及高容错性等优点,被诸多企业广泛地用于大数据的处理。MapReduce是Hadoop对数据进行分布式处理的核心组件,其作业调度算法决定了MapReduce的性能,影响到整个Hadoo p系统的性能。目前,现有的Hadoop作业调度算法中Reduce任务调度算法过于简单,制约了Hadoop系统性能的提升。一方面,存在小作业Reduce任务的饥饿以及较低的资源利用率的问题,另一方面,没有考虑到Reduce任务的数据本地性的优化。 本文针对Hadoop平台作业调度算法展开了研究,并对其Reduce任务调度算法进行了优化。本文的主要工作如下: 1)深入分析了小作业Reduce任务的饥饿以及较低的资源利用率的问题,提出了一种任务时间估计模型,并基于此模型提出了一种改进算法SBOTM (Scheduler Based On Time Model),将SBOTM算法的实现嵌入到当前比较流行的公平调度器中,通过与原生的公平调度器比较,该算法有效地改善了小作业Reduce任务的饥饿问题,提高了作业的执行效率,并一定程度上提高了资源利用率。 2)深入分析了Reduce任务的数据本地性问题,并提出了一种延迟调度算法DSORT (Delay Scheduler Of Reduce Task),将延迟调度的思想应用到Reduce任务的数据本地性的优化上,并将DSORT的实现嵌入公平调度器中,最后,通过与原生的公平调度器比较,该算法大大提高了Reduce任务的数据本地性,减少了网络传输开销,缩短了作业的执行时间。 本文提出的算法有效地改善了Hadoop自带的Reduce任务调度算法,提高了作业的执行效率,优化了Reduce任务的数据本地性,降低了网络传输代价,并且算法具好扩展性,可移植到其他的调度器当中。
【关键词】:Hadoop 作业调度 Reduce任务 资源利用率 数据本地性
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP301.6
【目录】:
  • 摘要5-6
  • ABSTRACT6-7
  • 目录7-9
  • 表格9-10
  • 插图10-12
  • 第1章 绪论12-20
  • 1.1 研究背景12-15
  • 1.1.1 云计算的基本概念12-14
  • 1.1.2 分布式计算框架概述14-15
  • 1.2 研究现状15-18
  • 1.3 本文的研究内容18
  • 1.4 本文的内容结构18-20
  • 第2章 Hadoop平台及相关技术20-34
  • 2.1 Hadoop概述20
  • 2.2 Hadoop的系统架构20-27
  • 2.2.1 HDFS分布式文件系统22-23
  • 2.2.2 MapReduce并行处理框架23-27
  • 2.3 MapReduce作业调度算法27-31
  • 2.3.1 作业调度算法概述27-28
  • 2.3.2 FIFO调度算法28
  • 2.3.3 计算能力调度算法28-29
  • 2.3.4 公平调度算法29-31
  • 2.4 Hadoop生态系统31-32
  • 2.5 本章小结32-34
  • 第3章 基于任务时间的Reduce任务调度优化34-44
  • 3.1 MapReduce作业执行过程34-35
  • 3.2 小作业的Reduce饥饿问题35-36
  • 3.3 基于任务时间的Reduce任务调度算法:SBOTM36-40
  • 3.3.1 任务时间评估模型37-38
  • 3.3.2 算法描述38-40
  • 3.4 实验评估40-43
  • 3.4.1 实验环境40
  • 3.4.2 实验结果40-43
  • 3.5 本章小结43-44
  • 第4章 Reduce任务数据本地性优化44-58
  • 4.1 Hadoop作业调度本地化概述44-46
  • 4.1.1 Map任务选择策略44-45
  • 4.1.2 Reduce任务选择策略45
  • 4.1.3 Hadoop的网络拓扑结构45-46
  • 4.2 Reduce任务本地性问题分析46-47
  • 4.3 Reduce任务本地性优化47-53
  • 4.3.1 Reduce任务本地化相关定义48
  • 4.3.2 Reduce任务的延迟调度算法DSORT48-50
  • 4.3.3 DSORT算法实现50-53
  • 4.4 实验评估53-57
  • 4.4.1 实验设置53-54
  • 4.4.2 实验结果与分析54-57
  • 4.5 本章小结57-58
  • 第5章 总结与展望58-60
  • 5.1 本文总结58
  • 5.2 研究展望58-60
  • 参考文献60-64
  • 致谢64-66
  • 在读期间发表的学术论文与取得的其他研究成果66
  • 攻读硕士学位期间参与的科研课题66

【参考文献】

中国期刊全文数据库 前5条

1 孙健;贾晓菁;;Google云计算平台的技术架构及对其成本的影响研究[J];电信科学;2010年01期

2 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期

3 刘再明;;腾讯云上的开放游戏生态圈——专访腾讯云计算公司总裁陈磊[J];互联网周刊;2014年16期

4 余望枝;朱少强;;BBS论坛与百度知道的信息评价机制探讨[J];图书馆学研究;2008年12期

5 牛禄青;;阿里云:创新云计算[J];新经济导刊;2013年03期



本文编号:732973

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/732973.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e2b4d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com