基于性能预估的Hadoop参数调优与作业调度机制研究

发布时间:2024-04-28 00:20
  Hadoop是一个分布式系统架构,被广泛应用于大数据的并行处理。MapReduce是Hadoop的一个编程模型,它的性能受到配置参数的显著影响。然而,巨大的参数空间和参数间的相互作用使得不可能手动探索所有参数组合;同时,真实运行一次作业会产生非常大的开销,所以我们必须建立模型来对作业性能进行预测,而不是用实际性能来评估每一套参数。作业性能通常用作业执行时间来表示。目前,针对于作业执行时间的建模,研究方法大致分为两类:第一类是通过公式推导,根据对于MapReduce执行过程的高度掌握,将作业执行各阶段与参数配置的关系用公式表示,经过一步步公式推导,得出最终完成时间,然而这种方式的弊端在于,影响作业性能的参数有很多,公式覆盖能力及其有限,这会忽视其他重要参数,使得优化效果欠佳,同时这也需要建模者对MapReduce有充分的掌握程度,能力要求较高;第二类方法是将对作业性能有重要影响的参数一起作为预测模型的输入,通过训练数据集得到作业执行时间与参数配置的对应模型,但就目前研究来看,现有模型大多考虑了参数,而没有考虑到资源,然而资源对作业性能也有很重要的影响,资源不足时会导致执行速度变慢。另外,...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图2-1遗传算法??2.4强化学习??

图2-1遗传算法??2.4强化学习??

?山东大学硕士学位论文???的个体则被淘汰。交叉的意思是对存活下来的父代个体的部分基因进行重新组合,??即将两个父代的某些基因进行交换,产生新的个体。变异的意思是对于编码的某??些位置上的基因按一定的概率进行改变。??产生初始种群后,计算每个个体的适应度函数值,按照确定的选择方法....


图2-2强化学习框架??

图2-2强化学习框架??

?山东大学硕士学位论文???奖励(r):智能体做出动作后环境给出的反馈,包括正奖励或负奖励。??环境(Environment):智能体外部所有事物的集合,它的状态受智能体做出的??动作影响而变化,且这种改变可以被智能体所感知,即反溃环境接收动作,返??回状态和奖励。??环境的状态....


图3-2基于性能预估的Hadoop参数调优与作业调度框架??由于作业的计算复杂度不一,在对作业执行时间预估时难以建立一个针对所??

图3-2基于性能预估的Hadoop参数调优与作业调度框架??由于作业的计算复杂度不一,在对作业执行时间预估时难以建立一个针对所??

?山东大学硕士学位论文???运行模块负责获取对该作业执行时间进行预估的基准数据,参数调优与作业调度??方案生成模块分别针对单作业情况和多作业情况生成作业的参数配置和作业调??度方案,方案执行模块负责对方案生成模块生成的方案进行具体实施。??作业调度与参数配置方案生成??用户一提交....


图4-2装箱算法??

图4-2装箱算法??

?山东大学硕士学位论文???任务已全部完成,释放了全部资源,有5个可用container,还剩4个map任务,??所以启动这4个map任务和1个shuffle。在6时刻,所有map任务都完成了,??有剩余container?了,所以启动剩余reduce(先进行shuffle)。在....



本文编号:3965914

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3965914.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bf6fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com