Spark中一种高效RDD自主缓存替换策略研究
发布时间:2021-06-18 07:49
由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。
【文章来源】:计算机应用研究. 2020,37(10)北大核心CSCD
【文章页数】:5 页
【文章目录】:
0 引言
1 方法
1.1 RDD分区依赖机制介绍
1.2 高效RDD自主缓存替换策略(ERAC)
1.2.1 高效RDD自主缓存模型
1.2.2 缓存替换目标分级模型
2 实验
2.1 实验环境
2.2 实验结果分析比较
2.2.1 各缓存替换算法量化因素对比分析
2.2.2 各缓存替换算法对比
2.2.3 缓存命中率对比
2.2.4 综合实验分析
3 结束语
【参考文献】:
期刊论文
[1]Spark框架中RDD缓存替换策略优化[J]. 陈天宇,张龙信,李肯立,周立前. 小型微型计算机系统. 2019(06)
[2]并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J]. 刘恒,谭良. 小型微型计算机系统. 2018(10)
[3]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[4]并行计算框架Spark的自适应缓存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉. 电子学报. 2017(02)
硕士论文
[1]集群计算引擎Spark中的内存优化研究与实现[D]. 冯琳.清华大学 2013
本文编号:3236274
【文章来源】:计算机应用研究. 2020,37(10)北大核心CSCD
【文章页数】:5 页
【文章目录】:
0 引言
1 方法
1.1 RDD分区依赖机制介绍
1.2 高效RDD自主缓存替换策略(ERAC)
1.2.1 高效RDD自主缓存模型
1.2.2 缓存替换目标分级模型
2 实验
2.1 实验环境
2.2 实验结果分析比较
2.2.1 各缓存替换算法量化因素对比分析
2.2.2 各缓存替换算法对比
2.2.3 缓存命中率对比
2.2.4 综合实验分析
3 结束语
【参考文献】:
期刊论文
[1]Spark框架中RDD缓存替换策略优化[J]. 陈天宇,张龙信,李肯立,周立前. 小型微型计算机系统. 2019(06)
[2]并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J]. 刘恒,谭良. 小型微型计算机系统. 2018(10)
[3]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[4]并行计算框架Spark的自适应缓存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉. 电子学报. 2017(02)
硕士论文
[1]集群计算引擎Spark中的内存优化研究与实现[D]. 冯琳.清华大学 2013
本文编号:3236274
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3236274.html