内存计算框架性能优化关键技术研究
发布时间:2018-01-07 07:20
本文关键词:内存计算框架性能优化关键技术研究 出处:《新疆大学》2017年博士论文 论文类型:学位论文
更多相关文章: 内存计算 集群性能 Spark Shuffle优化 资源配置 效率模型
【摘要】:近年来,充分利用内存的低延迟特性改进系统性能成为并行计算新的研究方向。以Berkley研究成果Spark为代表的内存计算框架,有效缓解了频繁磁盘I/O性能瓶颈,解放了多核CPU配合大容量内存硬件架构的潜在高性能,成为工业界一致认可的高性能并行计算系统。虽然内存计算框架的性能表现相对于传统的并行计算系统提高了数十倍,但与大数据时代的即时应用需求相比,还存在不小的差距。因此,从计算模型的角度研究内存计算框架的性能优化方法具有一定的现实意义。本文对内存计算框架性能优化问题展开一系列的研究,旨在通过提高内存计算集群资源利用率与计算效率,进而达到优化内存计算框架整体性能的目的。本文主要研究工作包括以下几点:(1)系统归纳了内存计算技术和应用系统的研究现状。首先,根据内存计算技术的发展历程,对内存数据管理技术、内存计算框架和典型的性能优化方法进行分类讨论,并将性能优化方法分为基于资源配置、任务调度及故障恢复三类进行综合比较。(2)提出了内存计算框架自适应缓存策略。针对内存计算框架Spark缺乏有效缓存选择机制的问题,提出自适应的缓存管理策略,分析任务的DAG(Directed Acyclic Graph)结构,自动识别重用RDD数据加载到缓存区;综合计算代价、处理数据量和使用频率等因素计算RDD权重,作为缓存替换的主要依据;通过异步清理无价值的RDD,降低作业的内存需求;从而在整体上优化缓存空间利用率。(3)提出内存计算框架局部数据优先拉取策略。针对异构环境下Stage同步导致的作业延时和计算资源浪费问题,提出局部数据优先拉取策略,通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率。(4)提出了内存计算框架并行度推断算法。针对内存计算框架任务并行度参数化设定可能导致的性能下降问题,提出内存计算框架并行度推断算法,通过分析任务并行度与作业执行效率的关系,提出并行度推断算法的问题定义;综合输入数据量、计算资源和附加开销等多个参数,计算出具有最大化资源利用率和最优状态同步的任务并行度,对作业的各个Stage进行优化调度,加速作业执行并提高计算能效。(5)提出基于分配适应度的渐进填充分区映射算法。针对异构环境下Shuffle过程数据分配与节点计算能力严重不符的问题,提出Shuffle过程的渐进填充分区映射算法;建立Shuffle过程模型,分析分配数据量与原始数据分布的联系;通过扩展式分区和多轮渐进填充映射,建立适应节点计算能力的数据分配方案,有效缩减Shuffle过程的同步延时,提高集群计算效率。(6)提出了基于回归检测的内存重复数据删除算法。为提高内存计算框架堆外存储区的利用率,提出一种基于滑动块回归检测的内存重复数据删除算法,通过未匹配数据进行回归检测,对比未匹配块的结构变化确定删冗操作类型,根据不同的操作类型选择执行折半匹配算法或二次滑动窗口检测算法,达到删除未匹配块内重复数据的目的,提高内存资源的使用效率。
[Abstract]:This paper presents a series of research on the performance optimization of memory computing framework , which is based on the development of memory computing technology . ( 4 ) The algorithm for calculating the parallelism of memory computing framework is put forward . In order to reduce the performance degradation caused by the parameter setting of the task parallelism in the memory computing framework , the paper proposes a new algorithm for calculating the parallelism of the memory calculation framework .
【学位授予单位】:新疆大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP333
【参考文献】
相关期刊论文 前4条
1 罗乐;刘轶;钱德沛;;内存计算技术研究综述[J];软件学报;2016年08期
2 文雨;孟丹;詹剑锋;;面向应用服务级目标的虚拟化资源管理[J];软件学报;2013年02期
3 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
4 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
,本文编号:1391540
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1391540.html