面向MapReduce计算模型的调度技术研究
发布时间:2025-01-03 23:02
MapReduce是目前最流行的云计算框架,其调度优化问题一直是云计算领域的重要研究问题。MapReduce调度优化的主要目标是,提高MapReduce作业的运行效率。针对这一目标,本文研究了面向MapReduce的数据分配、Map任务调度、非精确应用加速和串行程序的并行执行等四个问题。MapReduce原模型中,数据分配只考虑Map任务的负载均衡和数据本地化需求。然而,数据分配既会影响Map任务的运行效率,也会影响Shuffle的数据传输时间。针对Map任务运行和Shuffle数据传输的高效性问题,本文提出了一种面向MapReduce计算过程的最优数据分配方法OPTAS,以获得最短的Map+Shuffle的运行时间。其基本思路是:(1)利用作业数据分配方案(Data Placement Instance,DPI)的Map时间值的离散化特征,将所有数据分配方案划分成若干个DPI子空间,通过比较子空间最优DPI来获得最优数据分配方案,提高搜索效率;(2)基于子空间的Map时间值,确定子空间最优DPI的Shuffle时间下界,以快速构造子空间最优数据分配方案;(3)按照Map时间值的大小顺序...
【文章页数】:125 页
【学位级别】:博士
【部分图文】:
本文编号:4022515
【文章页数】:125 页
【学位级别】:博士
【部分图文】:
图1.2MapReduce作业流程
图1.2MapReduce作业流程.2MapReduce任务调度方法
图2.5Map-Reduce-Merge模型
图2.5Map-Reduce-Merge模型educe能够对同构数据源进行高效处理。但是,存在很多需要
图2.6Haloop体系结构
图2.6Haloop体系结构
图2.7HadoopDB体系结构图
图2.7HadoopDB体系结构图
本文编号:4022515
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/4022515.html