基于SRFRP模型的Spark性能预测与优化
发布时间:2025-01-14 01:11
随着大数据处理框架应用越来越广泛,大数据处理应用程序性能预测的需求也越来越多。Spark是一种基于分布式内存计算的大数据处理框架,凭借其更快的处理速度、良好的扩展性和容错性,在业界已得到广泛认可。然而Spark负载的执行时间根据输入数据量大小、算法的设计实现、集群计算能力和集群参数配置等会有很大的不同,这使得Spark性能预测成为一个很大的难题。现阶段,针对Spark性能预测的方法主要有机器学习和系统行为建模两类方法,然而这些方法存在通用性差和准确性低等问题。本文针对以上问题,通过对Spark运行机制的深入研究,提出一种基于随机森林回归模型和图编辑距离的Spark性能预测算法,该算法克服了一般机器学习方法通用性差和系统行为建模准确性低等缺点。本文将影响Spark负载性能的因素分为两大类:静态特征因素和动态特征因素。以静态特征因素作为输入,以负载执行时间为输出,利用固定类型负载的历史运行信息和随机森林回归算法,构建出该类型负载的性能预测模型——SRFRP模型。利用多种类型负载的历史运行信息,通过训练产生SRFRP模型库。然后根据负载动态特征——DAG图和本文提出的负载相似度计算方法,从SR...
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
本文编号:4026179
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图3-3最优max_features选择从最优max_feature值分析中我们已经得到了最优的决策树特征数量为7个,因此本文令max_feature=7,动态调整nestimator值再进行上一步中的
哈尔滨工业大学工学硕士学位论文ator值的设定存在一个原则——尽量要使得每一个样本都能那么通常的n<sub>e</sub>stimator值设定为1000或者500,但是也,这要根据具体的情况具体分析
图3-4最优nestimator选择
图3-3最优max_features选择从最优max_feature值分析中我们已经得到了最优的决策树特征数因此本文令max_feature=7,动态调整n<sub>e</sub>stimator值再进行上一步即可,实验结果如图3-4:
图5-3WordCount测试集预测模型执行时间对比图
机器学习K-meansClustering机器学习RandomForestRegression机器学习SVM机器学习DecisionTree机器学习LinearRegression电子商务NativeBayesianClassification社交网络服务Co....
图5-4PageRank测试集预测模型执行时间对比图
前文SRFRP模型预测能力评价原理与方法提到的确定系数是衡量一个回归模型好坏的重要量化标准,因此,本文也对WordCount负载的SRFRP模型预测能力进行了计算评估,根据确定系数计算公式()()(....
本文编号:4026179
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4026179.html