当前位置:主页 > 科技论文 > 搜索引擎论文 >

Spark框架性能预测与优化技术的研究与实现

发布时间:2020-09-29 07:25
   随着云计算的迅速发展,如何处理和挖掘由社会网络、生物信息学、电子商务和医疗保健等各式应用程序生成的大型数据集已成为一个重要且具有挑战性的问题。为了便于大数据分析,业界涌现出了许多不断发展的框架来执行并行数据处理。大数据处理框架(例如Spark)拥有100多个配置参数,用来控制应用程序的行为,并且往往对应用程序性能有着决定性影响。但通常用户不具备大数据框架的领域知识,能够结合应用程序的特征和框架的特性设置配置参数,往往采用默认配置。因此如何自动优化Spark配置参数,提升应用程序性能,减少时间成本是亟待解决的问题。为了解决这个问题,国内外提出了很多自动化参数优化方法。但是这些现存方法不是忽略了实际场景下的优化成本,就是需要对软件的特定版本进行内部分析,难以投入实际应用,因此本文提出了一种自动化优化配置参数的工具AutoTune。在考虑了实际应用场景下优化时间限制和高维参数搜索空间的前提下,提出了与实际环境受配置影响相同的测试床(Testbed)环境构建方法和广泛覆盖搜索空间的优化算法,从而实现了高效的自动化配置优化。本文具体包含的工作有以下几个方面:(1)分析和定义了Spark框架性能预测与优化问题,对该问题进行数学建模,同时描述了优化方法流程,确定了待优化配置参数空间。(2)设计并实现了一个Testbed构建方法,用来解决在实际应用场景下由于存在优化时间限制,无法进行过多次数搜索或者获取训练样本的问题。通过在小规模,但是足够精确地捕获实际生产环境受配置影响的Testbed环境下,运行缩减了输入数据量的应用,减少单次配置运行时间,从而获得更多的训练样本,提高性能预测模型的准确性。(3)提出一个结合了机器学习算法和搜索算法的迭代式参数优化算法。通过采用探索策略,使用拉丁超立方体采样算法来保证在高维参数搜索空间上的搜索样本的广泛性。通过采用开发策略,使用参数缩减算法不断地减小搜索范围,寻找局部最优解。迭代过程中不断优化随机森林模型,预测不同配置下的性能表现,指导探索和开发过程。通过实验检验本文提出的Testbed构建方法和性能预测与优化算法。实验验证主要包括两部分,首先使用归一化折现累积增益指标比较相同时间下Testbed和实际生产环境下训练得到的机器学习模型的准确性。然后分别使用本文优化算法与其它5种优化方法搜寻最佳配置,比较其优化结果。经过实验证明,优化算法产出的优化配置比默认配置平均有63.70%的性能提升,而且,在使用Testbed的情况下,对于所有优化算法,得到的最佳配置都优于实际生产系统。
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13
【部分图文】:

控制参数,实验结果,开发阶段


初始化、探索和开发阶段、验证阶段都存在,且探索和开发阶段占大比例时间情况下,优化效果比较好。图5.4 不同控制参数实验结果5.3 本章小结本章主要介绍了研究课题所需要的实验环境和实验过程。然后,将同样时间下Testbed 得到的应用预测模型同实际生产环境下的模型,采用 nDCG 指标进行比较和

【相似文献】

相关期刊论文 前10条

1 王国栋;刘相华;刘振宇;;钢材热轧过程中组织-性能预测技术的发展现状和趋势[J];钢铁;2007年10期

2 杨军虎,张学静;离心泵的性能预测进展[J];通用机械;2003年12期

3 王建峰,徐正平,何仁;区间数学在汽车性能预测中的应用探讨[J];机械设计与制造工程;1998年05期

4 韦彩新;;利用性能预测方法确定电站最优运行工况[J];湖北水力发电;1992年02期

5 许以军;郭永环;秦真江;侯玉洁;;模糊神经网络在焊接性能预测中的应用现状[J];电焊机;2014年06期

6 崔文华;刘晓冰;王伟;王介生;;基于递阶支持向量机的产品族配置性能预测[J];计算机集成制造系统;2013年08期

7 马文博;吴斌;朱天;杨娟;;基于径向基函数神经网络的热轧产品性能预测[J];广西师范大学学报(自然科学版);2010年03期

8 李军红;周天瑞;郑荣;;基于神经网络的冷轧带肋钢筋机械性能预测[J];中国机械工程;2006年15期

9 孙建平,张克危,贾宗谟;泵优化水力设计的现状及展望[J];水泵技术;1994年05期

10 三阶春夫;吴广位;;离心式压气机的性能预测(笫一部预测方法与计算实例)[J];国外内燃机车;1986年05期

相关会议论文 前10条

1 陈华鹏;刘昌雨;;桥梁服役状态评估与性能预测[A];第九届桥梁与隧道工程技术论坛论文集[C];2019年

2 唐小伟;;气动性能预测研究数据向应用数据转化的探讨[A];第八届全国高超声速科技学术会议论文摘要集[C];2015年

3 王彦利;田秀;曲建俊;;超声波电机性能预测方法[A];中国宇航学会深空探测技术专业委员会第七届学术年会论文集[C];2010年

4 毕海权;雷波;;基于神经网络方法的空调机组性能预测[A];全国暖通空调制冷2000年学术年会资料集[C];2000年

5 陈红伟;;HyperMorph在汽车开发中的应用[A];2015Altair技术大会论文集[C];2015年

6 朱永光;郭朝霞;于建;;基于神经网络的复合材料的改性及其性能预测[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年

7 曲建俊;王彦利;;超声波电动机性能预测方法[A];第十六届中国小电机技术研讨会论文摘要集[C];2011年

8 刘军;张立群;;聚合物纳米复合材料模拟研究:结构设计与性能预测[A];2015年全国高分子学术论文报告会论文摘要集——主题E 高分子理论计算模拟[C];2015年

9 崔俊芝;;多尺度颗粒随机分布材料的性能预测方法[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议演讲辑录[C];2004年

10 段小容;陈友明;赵云峰;;基于神经网络的冷却塔性能预测与评估[A];全国暖通空调制冷2010年学术年会资料集[C];2010年

相关重要报纸文章 前5条

1 记者 王亚丽;DNV新推石化行业性能预测软件[N];中国化工报;2009年

2 王小庆;Intel公布安腾2性能预测[N];中国电子报;2002年

3 本报记者 王洪刚 通讯员 张国东 李止庸;10年磨剑 品质铸就辉煌[N];西部时报;2011年

4 胡恒法;满足多样化、个性化生产需求[N];中国冶金报;2010年

5 本报记者 郭川;5G将带来真正互联的世界[N];人民邮电;2014年

相关博士学位论文 前10条

1 于晓慧;高温热泵系统性能及性能预测研究[D];天津大学;2014年

2 黄宸武;基于相似理论风力机气动性能预测研究[D];中国科学院研究生院(工程热物理研究所);2012年

3 邓天勇;基于组织性能预测的柔性化轧制工艺制定方法[D];东北大学;2008年

4 张赋;复合材料微结构仿真与性能预测一体化研究[D];兰州理工大学;2013年

5 王宏强;目标融合跟踪技术及性能预测研究[D];中国人民解放军国防科学技术大学;2002年

6 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年

7 肖惠民;基于计算流体动力学的水轮机及水电站尾水系统数值研究[D];武汉大学;2005年

8 张超炜;离心压气机性能预测模型及气动设计方法研究[D];中国科学院大学(中国科学院工程热物理研究所);2020年

9 徐志;超临界循环流化床锅炉数学模拟与设计方案优化[D];浙江大学;2013年

10 李倩;复杂背景杂波量化及光电成像系统性能预测研究[D];西安电子科技大学;2013年

相关硕士学位论文 前10条

1 陈炜昭;Spark框架性能预测与优化技术的研究与实现[D];西安电子科技大学;2019年

2 张竞旭;基于AMD Tonga架构的GPU性能预测研究[D];西安电子科技大学;2018年

3 丁亚男;Q&P热冲压过程相变模型研究与性能预测[D];上海交通大学;2017年

4 王厚同;基于机器学习的TBM性能预测方法[D];山东大学;2019年

5 姜传奇;基于条件变分自编码器的网络性能预测和优化方法研究[D];山东大学;2019年

6 罗华;基于线性回归和深度置信网络的TBM性能预测研究[D];浙江大学;2018年

7 衣晨阳;动车组横向止挡减振器有限元仿真及性能预测研究[D];青岛科技大学;2017年

8 阮江洋;激光干扰下红外成像系统性能预测研究[D];西安电子科技大学;2011年

9 宋玲玲;基于进化算法的高性能混凝土性能预测与配比优化研究[D];河北农业大学;2010年

10 陈凯;红外成像系统野外鉴别性能预测新方法研究[D];西安电子科技大学;2010年



本文编号:2829419

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2829419.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc04d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com