内存计算框架局部数据优先拉取策略
发布时间:2018-01-06 06:32
本文关键词:内存计算框架局部数据优先拉取策略 出处:《计算机研究与发展》2017年04期 论文类型:期刊论文
更多相关文章: 内存计算 任务分配 作业调度 分配效能熵 节点贡献度 异构环境
【摘要】:内存计算框架的低延迟特性大幅提高了集群的计算效率,但Shuffle过程的性能瓶颈仍不可规避.宽依赖的同步操作导致大多数工作节点等待慢节点的计算结果,同步过程不仅浪费计算资源,更增加了作业延时,这一现象在异构集群环境下尤为突出.针对内存计算框架Shuffle操作的同步问题,建立了资源需求模型、执行效率模型和任务分配及调度模型.给出了分配效能熵(allocation efficiency entropy,AEE)和节点贡献度(worker contribution degree,WCD)的定义,提出了算法的优化目标.根据模型的相关定义求解,设计了局部数据优先拉取算法(partial data shuffled first algorithm,PDSF),通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率;通过分析算法的相关优化原则,证明了算法的帕累托最优性.实验表明:PDSF算法提高了内存计算框架的作业执行效率,并使集群资源得到有效利用.
[Abstract]:The low delay characteristic of the memory computing framework greatly improves the computing efficiency of the cluster , but the performance bottleneck of the Shuffle process can not be avoided . The synchronization problem of wide - dependent synchronization causes most work nodes to wait for the computation results of the slow nodes .
【作者单位】: 新疆大学信息科学与工程学院;新疆财经大学统计与信息学院;
【基金】:国家自然科学基金项目(61262088,61462079,61363083,61562086) 新疆维吾尔自治区高校科研计划(XJEDU2016S106)~~
【分类号】:TP311.13;TP333
【正文快照】: 近年来,各行业应用数据规模呈爆炸性增长,大数据的4V特性发生不同程度的变化,表现出增速快、增量大、类型多样、结构差异明显等特征[1].传统的并行计算系统由于其计算模型的天生缺陷,在大数据处理过程中存在I/O效率低下、并发控制困难、数据处理总体性能较低等诸多问题,难以有
【相似文献】
相关期刊论文 前2条
1 蔺广逢;朱虹;范彩霞;张二虎;罗磊;;基于Grassmann流形的多聚类特征选择[J];计算机工程;2012年16期
2 ;[J];;年期
,本文编号:1386717
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1386717.html