并行计算框架Spark的自适应缓存管理策略

发布时间：2020-03-01 18:18

【摘要】：并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.
【图文】：

任务执行,分配方案,内存,效率模型

本节首先分析Ｓｐａｒｋ任务的执行机制，建立内存资，，，则任务ｉ＇在分配方案枣下成功调度的概率为：逡逑源模型、任务执行效率模型和ＲＤＤ权重模型，最后提出逦Ｐ邋＝邋＾Ｌ逦（４）逡逑自适应缓存管理策略的问题定义．逦＿逦４逡逑２．邋１邋Ｓｐａｒｋ任务执行机制逦任务！的两种内存分配方案为Ｋ且邋＜邋＞久．逡逑Ｓｐａｒｋ的任务执行采用了延时调度机制，即当用Ｐ逦Ｗ种分配方案下任务的执行时间均为邋＜，由Ｈ，为常逡逑对－个乫执行Ａｃｔｉｏｎ操作时，调度器会根据＿的数，因此Ａ邋＜［’即内存一占神越低的分配方案调丨ｉｆ成逡逑ｌｉｎｅａｇｅ来＿－个ＤＡＧ，贩为工作结点分野

本文编号：2584110

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2584110.html

上一篇：基于ARM的智能楼宇无线网络信息系统研究
下一篇：基于程序阶段行为的共享缓存动态划分方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|