当前位置:主页 > 科技论文 > 软件论文 >

Spark自动调优系统的设计与实现

发布时间:2022-04-27 17:51
  随着大数据时代的到来,计算机需要处理的数据量与日俱增,面对互联网、工业物联网等领域不断增长的数据规模和计算需求,单个计算节点不再能有效地满足数据存储和处理的需要。在这样的背景下,Apache Spark作为一种具有良好计算性能和环境适应性的分布式计算框架,得到了广泛地使用。Spark有数十个可以影响系统行为的参数,这些参数可以通过改变计算任务的并行度和使用的内存大小等方式,显著地影响Spark应用的性能。目前这些参数通常由系统管理员手动调整,然而人工调参方法对于使用者的专业能力有一定的要求,并且由于可调参数数量众多以及集群环境之间的差异,具有较大的局限性,难以满足所有Spark应用场景下的需要。为解决上述问题,本文对如何自动化地进行Spark应用参数调整做了研究。本文分别研究了如何利用应用历史运行数据来进行自动参数调优的问题和在缺少应用历史数据的情况下如何自动优化参数的问题。除此以外,本文还探讨了如何基于统计方法进一步提升参数优化效果,并且对这种方法的适用性进行了探讨,最后在前述方法的基础上,实现了一个自动在Spark on yarn部署模式下工作的参数优化系统。在应用运行历史记录充足... 

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景及研究意义
        1.1.1 Apache Spark简介
        1.1.2 Apache Spark系统中参数的作用与对应用性能的影响
    1.2 Apache Spark性能优化研究概况
        1.2.1 国内外研究现状
        1.2.2 存在的不足和有待深入研究的问题
    1.3 本文主要研究内容
    1.4 本文组织结构
第2章 基于机器学习方法的参数调优
    2.1 引言
    2.2 基于机器学习方法的应用性能预测模型
    2.3 参数空间搜索
    2.4 优化效果
    2.5 本章小结
第3章 基于混合优化方案的参数调优
    3.1 引言
    3.2 启发式优化方法
    3.3 混合优化方法
    3.4 混合优化方法的参数优化效果
    3.5 本章小结
第4章 机器学习模型对优化效果的影响
    4.1 引言
    4.2 预测速度与精度对优化效果的影响
    4.3 改进的机器学习模型选择方法
    4.4 本章小结
第5章 Spark自动优化系统的实现
    5.1 引言
    5.2 Spark自动优化系统的工作流程
    5.3 用户接口设计
    5.4 配置文件
    5.5 Spark自动优化系统的优化效果
        5.5.1 实验环境
        5.5.2 实验结果与讨论
    5.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢


【参考文献】:
期刊论文
[1]Spark性能优化技术研究综述[J]. 廖湖声,黄珊珊,徐俊刚,刘仁峰.  计算机科学. 2018(07)
[2]基于数据特性的Spark任务性能优化[J]. 柴宁,吴毅坚,赵文耘.  计算机应用与软件. 2018(01)
[3]Spark平台中任务执行时间预测方法研究[J]. 刘思宇,梁毅,陈诚,陈翔.  软件导刊. 2017(12)
[4]异构Spark集群下自适应任务调度策略[J]. 杨志伟,郑烇,王嵩,杨坚,周乐乐.  计算机工程. 2016(01)
[5]基于运行数据分析的Spark任务参数优化[J]. 陈侨安,李峰,曹越,龙明盛.  计算机工程与科学. 2016(01)



本文编号:3648905

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3648905.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c119e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com