Hadoop平台作业调度算法研究与改进
发布时间:2017-09-10 01:00
本文关键词:Hadoop平台作业调度算法研究与改进
更多相关文章: Hadoop MapReduce 延迟调度 LATE调度算法 本地性 负载均衡
【摘要】:随着搜索引擎、社交网络等数据密集型互联网应用的发展,信息和数据量呈现爆炸式增长的趋势,如何存储和处理越来越庞大的数据信息,于是产生了云计算。云计算把原有的技术如网格计算和分布式计算进行整合并以新的模式呈现出来,它构建在大量廉价的服务器上,利用虚拟化技术整合现有的计算资源、存储资源和带宽资源,通过统一的接口为用户提供按需分配的各种资源。 在所有的云计算平台中,,Hadoop是最流行的开源云平台架构,其中的核心技术HDFS和MapReduce分别实现了Google云平台中的GFS和MapReduce,它们分别具有对海量数据进行存储和处理的功能。如何通过设计不同的作业调度算法来提升MapReduce性能,已然成为学术界和工业界都非常关注的一个热点问题,本文主要研究了延迟调度算法和LATE调度算法,并针对算法中存在的问题提出了改进。 延迟调度算法是为了解决“数据本地性”问题而提出的一种算法,核心思想是空闲节点在申请作业时,优先选择作业队列中在该节点上具有待处理数据的作业,若在规定的时间内仍没有找到本地作业,则选择队首作业执行。这种方法大大提高了作业本地执行的概率,同时也产生了一些问题,若作业待处理数据集中在某几个节点上,则会加重这些节点的负载,容易导致集群负载不平衡,影响执行效率。本文对延迟调度算法进行改进,思路如下:一是均衡负载,在作业等待本地目标节点的同时,检测空闲节点的负载情况,如果节点负载超过阈值,则暂时不予分配任务;二是增加热点数据块的副本数量,以提高这些数据成功访问的概率。通过上述两种方式达到提升Hadoop集群运行效率的目的。 LATE调度算法是针对异构集群节点运行速度不同提出的一种快节点运行慢节点上面任务的方法,以缩短集群的整体运行时间。但该调度算法未充分考虑备份任务在同一机架和不同机架推测执行时数据传输消耗的时间差异性以及集群不同节点的负载情况。本文综合这两个方面进行改进,在推测作业剩余完成时间时,考虑数据迁移的时间成本,以剩余时间和迁移时间之和为权值进行排序,再结合集群中节点的负载情况进行分析,避免节点处于超负荷状态仍分配任务,缩短作业的响应时间,提升集群的利用率。 通过搭建实验平台验证,与原有的调度算法相比,延迟调度算法的改进缩短了作业平均响应时间,提高了集群的效率。改进后的LATE调度算法比改进前对落后任务的判断更加准确,对跨机架作业的推测执行更加合理,提高了集群的效率。
【关键词】:Hadoop MapReduce 延迟调度 LATE调度算法 本地性 负载均衡
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP301.6
【目录】:
- 摘要4-6
- Abstract6-11
- 1 绪论11-17
- 1.1 研究背景11
- 1.2 研究的目的和意义11-13
- 1.3 国内外研究现状13-14
- 1.4 本文的工作14-15
- 1.5 本文的结构15-17
- 2 相关技术与现有调度算法17-29
- 2.1 云计算概述17-21
- 2.1.1 云计算定义17
- 2.1.2 云计算特点17-18
- 2.1.3 云计算关键技术18-20
- 2.1.4 云计算平台20-21
- 2.2 Hadoop 平台21-24
- 2.2.1 Hadoop 平台概述21-22
- 2.2.2 HDFS 的系统架构22-23
- 2.2.3 MapReduce 的工作原理23-24
- 2.3 Hadoop 调度算法24-28
- 2.3.1 先进先出调度算法25
- 2.3.2 计算能力调度算法25-26
- 2.3.3 公平调度算法26-27
- 2.3.4 延迟调度算法27
- 2.3.5 LATE 调度算法27-28
- 2.4 本章小结28-29
- 3 延迟调度算法的研究与改进29-39
- 3.1 延迟调度算法简介29-30
- 3.1.1 基本概念29-30
- 3.1.2 延迟调度算法分析30
- 3.2 现有算法存在问题30-31
- 3.3 改进思路31-32
- 3.3.1 定义几个概念31-32
- 3.3.2 算法过程描述32
- 3.4 改进后的算法32-33
- 3.5 实验平台搭建与结果分析33-38
- 3.5.1 实验平台搭建33-36
- 3.5.2 实验平台配置36-37
- 3.5.3 实验结果与分析37-38
- 3.6 本章小结38-39
- 4 LATE 调度算法的研究与改进39-49
- 4.1 Hadoop 默认推测执行算法39-40
- 4.2 LATE 调度算法的基本原理40
- 4.3 LATE 调度算法存在不足40-41
- 4.3.1 落后任务判断问题40-41
- 4.3.2 节点负载不均衡问题41
- 4.3.3 数据局部性问题41
- 4.4 改进思路41-42
- 4.5 具体步骤42-44
- 4.6 实验平台搭建与结果分析44-47
- 4.6.1 实验平台搭建44-45
- 4.6.2 实验平台配置45-46
- 4.6.3 实验结果与分析46-47
- 4.7 本章小结47-49
- 5 总结与展望49-51
- 5.1 总结49
- 5.2 展望49-51
- 参考文献51-55
- 致谢55-56
- 攻读学位期间取得的科研成果清单56
- 在校期间参研项目56
【参考文献】
中国期刊全文数据库 前10条
1 李丽英;唐卓;李仁发;;基于LATE的Hadoop数据局部性改进调度算法[J];计算机科学;2011年11期
2 栾亚建;黄烂
本文编号:823793
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/823793.html