Spark性能建模系统的设计与实现
发布时间:2021-06-11 13:16
随着云计算、移动计算等技术的快速发展和广泛应用,互联网所产生的数据量正在以指数级的速度增长。面对海量数据的处理和挖掘需求,业界逐渐发展出了众多大数据处理技术及相关开发框架。为了应对不同的使用场景,Spark大数据处理框架提供了上百个配置项。由于Spark的配置参数对应用的运行性能有着显著的影响,因此对Spark配置进行调优是一项十分必要的工作。为了提高Spark框架的运行效率,国内外研究者在多个方向做出了努力。其中自动化配置参数优化方法的研究尚处于探索阶段。现有的自动化优化方法对成本的考虑较为不足,难以应用于实际工作场景,而且其优化效果也有着较大的提升空间。针对上述问题,本文给出一种基于机器学习的性能建模的方法,预测目标应用在不同的配置参数下的执行时间,并在此基础上实现配置参数的优化任务。该方法的主要思路为:建立应用与模型数据库,保存多种应用信息及其机器学习模型;对于需要预测在各种配置下执行时间的目标应用,首先从数据库中查找并提取关键信息,用以指导目标应用样本数据的获取;随后基于机器学习算法对样本数据进行训练以构建目标应用的性能预测模型。本文的主要工作包括:(1)应用执行状态监控。将目...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
集群模式下Spark架构图
训练与应用的工作流,并实现一定程度的自动化,使得整个系统可以在没有或很少人工介入的情况下实现持续运行。图3.1 系统组织结构图如图 3.1 所示,通过对分布式数据计算框架优化系统的架构和现有研究基础的分析,可以发现系统主体结构可以分为集群与应用程序的状态监控、历史运行数据的存储与管理、应用负载的自动化性能调优、统一管理平台等四个部分。接下来将对这四个主要部分进行详细说明。
应用在运行时的 Stage 划分情况、各阶段占用的资源等上文讨论的采集提取数值,配置参数集合 相关特征包括各个关键配置项进行筛选与转换之后的结果。图3.2 性能建模方法设计如图 3.2 所示,本文设计的性能建模部分由应用运行环境控制、运行时数据采集与提取、模型样本数据库、可转移知识提取、复合模型构建等模块组成。对于给定的一个目标应用,首先需要获取其相关应用特征,为此需要运行该目标应用负载获取其运行时数据记录,并从中提取出描述应用特性的关键数据集合。由于是基于机器学习的建模方法,为了使机器学习训练样本覆盖尽可能大的特征空间,需要选出对最终结果影响程度更大的配置参数集合。通过使用应用相关特征进行应用相
【参考文献】:
期刊论文
[1]基于运行数据分析的Spark任务参数优化[J]. 陈侨安,李峰,曹越,龙明盛. 计算机工程与科学. 2016(01)
[2]大规模图数据匹配技术综述[J]. 于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉. 计算机研究与发展. 2015(02)
[3]云计算及其关键技术[J]. 陈全,邓倩妮. 计算机应用. 2009(09)
本文编号:3224607
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
集群模式下Spark架构图
训练与应用的工作流,并实现一定程度的自动化,使得整个系统可以在没有或很少人工介入的情况下实现持续运行。图3.1 系统组织结构图如图 3.1 所示,通过对分布式数据计算框架优化系统的架构和现有研究基础的分析,可以发现系统主体结构可以分为集群与应用程序的状态监控、历史运行数据的存储与管理、应用负载的自动化性能调优、统一管理平台等四个部分。接下来将对这四个主要部分进行详细说明。
应用在运行时的 Stage 划分情况、各阶段占用的资源等上文讨论的采集提取数值,配置参数集合 相关特征包括各个关键配置项进行筛选与转换之后的结果。图3.2 性能建模方法设计如图 3.2 所示,本文设计的性能建模部分由应用运行环境控制、运行时数据采集与提取、模型样本数据库、可转移知识提取、复合模型构建等模块组成。对于给定的一个目标应用,首先需要获取其相关应用特征,为此需要运行该目标应用负载获取其运行时数据记录,并从中提取出描述应用特性的关键数据集合。由于是基于机器学习的建模方法,为了使机器学习训练样本覆盖尽可能大的特征空间,需要选出对最终结果影响程度更大的配置参数集合。通过使用应用相关特征进行应用相
【参考文献】:
期刊论文
[1]基于运行数据分析的Spark任务参数优化[J]. 陈侨安,李峰,曹越,龙明盛. 计算机工程与科学. 2016(01)
[2]大规模图数据匹配技术综述[J]. 于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉. 计算机研究与发展. 2015(02)
[3]云计算及其关键技术[J]. 陈全,邓倩妮. 计算机应用. 2009(09)
本文编号:3224607
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3224607.html