内存计算框架局部数据优先拉取策略

发布时间：2018-01-06 06:32

本文关键词：内存计算框架局部数据优先拉取策略　出处：《计算机研究与发展》2017年04期 　论文类型：期刊论文

【摘要】：内存计算框架的低延迟特性大幅提高了集群的计算效率,但Shuffle过程的性能瓶颈仍不可规避.宽依赖的同步操作导致大多数工作节点等待慢节点的计算结果,同步过程不仅浪费计算资源,更增加了作业延时,这一现象在异构集群环境下尤为突出.针对内存计算框架Shuffle操作的同步问题,建立了资源需求模型、执行效率模型和任务分配及调度模型.给出了分配效能熵(allocation efficiency entropy,AEE)和节点贡献度(worker contribution degree,WCD)的定义,提出了算法的优化目标.根据模型的相关定义求解,设计了局部数据优先拉取算法(partial data shuffled first algorithm,PDSF),通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率;通过分析算法的相关优化原则,证明了算法的帕累托最优性.实验表明:PDSF算法提高了内存计算框架的作业执行效率,并使集群资源得到有效利用.
[Abstract]:The low delay characteristic of the memory computing framework greatly improves the computing efficiency of the cluster , but the performance bottleneck of the Shuffle process can not be avoided . The synchronization problem of wide - dependent synchronization causes most work nodes to wait for the computation results of the slow nodes .

【作者单位】：新疆大学信息科学与工程学院;新疆财经大学统计与信息学院;
【基金】：国家自然科学基金项目(61262088,61462079,61363083,61562086) 新疆维吾尔自治区高校科研计划(XJEDU2016S106)~~
【分类号】：TP311.13;TP333
【正文快照】： 近年来,各行业应用数据规模呈爆炸性增长,大数据的4V特性发生不同程度的变化,表现出增速快、增量大、类型多样、结构差异明显等特征[1].传统的并行计算系统由于其计算模型的天生缺陷,在大数据处理过程中存在I/O效率低下、并发控制困难、数据处理总体性能较低等诸多问题,难以有

【相似文献】