一种Spark作业配置参数智能优化方法
发布时间:2021-07-02 08:06
Spark的配置参数对作业运行性能有较大影响,针对配置参数种类多、参数搜索空间大、参数间相互影响导致人工配置参数调优效率低下的问题,提出了一种Spark作业配置参数智能优化方法。首先,在Spark众多配置参数中选择对作业运行性能影响较大的关键配置参数,建立典型Spark作业的运行数据集,利用支持向量回归算法,构建作业性能预测模型,通过改变数据集的规模,对比分析了模型预测值和作业的真实运行时间,模型评估指标证明了作业性能预测模型的有效性和准确性。其次,基于作业性能预测模型,设计并实现了基于爬山算法、模拟退火算法、递归随机搜索算法以及粒子群算法的配置参数优化算法,并对4种算法的求解质量进行对比分析,实验表明递归随机搜索算法在3种不同类型的作业上收敛结果较优且标准差较小,证明该算法对不同类型作业的适应性较强、稳定性较好。将本文的智能优化配置与传统经验优化配置相比,实验结果表明,智能优化配置为典型Spark作业分别带来了4%、15%、22%的平均性能提升,证明智能优化配置能够高效地获取到具备较好作业适应性的配置,提升作业运行性能。
【文章来源】:工程科学与技术. 2020,52(01)北大核心EICSCD
【文章页数】:7 页
【部分图文】:
配置参数智能优化方法
式中,C j,ori为该配置参数的原始值,Cj,max为该配置参数所有取值中的最大值,Cj,min为该配置参数所有取值中的最小值。归一化可以保证每个配置参数的值都缩放到相同的数值范围,确保数据处于同一数量级,提高不同特征数据的可比性。2.4 作业性能预测模型建立与评估
分别在集群上运行Sort、WordCount、K-Means这3类作业,采集运行时间的平均值,与模型的预测结果进行对比,如图3所示。从图3中可以看出,模型预测结果和实际运行时间存在一定误差,但是从整体趋势上看,两者较为贴合。实验结果说明了Spark作业性能预测模型的有效性。
【参考文献】:
期刊论文
[1]Spark性能优化技术研究综述[J]. 廖湖声,黄珊珊,徐俊刚,刘仁峰. 计算机科学. 2018(07)
[2]基于运行数据分析的Spark任务参数优化[J]. 陈侨安,李峰,曹越,龙明盛. 计算机工程与科学. 2016(01)
[3]基于灰盒模型的Hadoop MapReduce job参数性能分析与预测[J]. 周世龙,陈兴蜀,罗永刚. 四川大学学报(工程科学版). 2014(S1)
硕士论文
[1]Spark Shuffle的内存调度算法分析及优化[D]. 陈英芝.浙江大学 2016
本文编号:3260089
【文章来源】:工程科学与技术. 2020,52(01)北大核心EICSCD
【文章页数】:7 页
【部分图文】:
配置参数智能优化方法
式中,C j,ori为该配置参数的原始值,Cj,max为该配置参数所有取值中的最大值,Cj,min为该配置参数所有取值中的最小值。归一化可以保证每个配置参数的值都缩放到相同的数值范围,确保数据处于同一数量级,提高不同特征数据的可比性。2.4 作业性能预测模型建立与评估
分别在集群上运行Sort、WordCount、K-Means这3类作业,采集运行时间的平均值,与模型的预测结果进行对比,如图3所示。从图3中可以看出,模型预测结果和实际运行时间存在一定误差,但是从整体趋势上看,两者较为贴合。实验结果说明了Spark作业性能预测模型的有效性。
【参考文献】:
期刊论文
[1]Spark性能优化技术研究综述[J]. 廖湖声,黄珊珊,徐俊刚,刘仁峰. 计算机科学. 2018(07)
[2]基于运行数据分析的Spark任务参数优化[J]. 陈侨安,李峰,曹越,龙明盛. 计算机工程与科学. 2016(01)
[3]基于灰盒模型的Hadoop MapReduce job参数性能分析与预测[J]. 周世龙,陈兴蜀,罗永刚. 四川大学学报(工程科学版). 2014(S1)
硕士论文
[1]Spark Shuffle的内存调度算法分析及优化[D]. 陈英芝.浙江大学 2016
本文编号:3260089
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3260089.html