基于学习的容器环境Spark性能监控与分析
本文选题:Spark 切入点:容器 出处:《计算机应用》2017年12期
【摘要】:Spark计算框架被越来越多的企业用作大数据分析的框架,由于通常部署在分布式和云环境中因此增加了该系统的复杂性,对Spark框架的性能进行监控并查找导致性能下降的作业向来是非常困难的问题。针对此问题,提出并编写了一种针对分布式容器环境中Spark性能的实时监控与分析方法。首先,通过在Spark中植入代码和监控Docker容器中的API文件获取并整合了作业运行时资源消耗信息;然后,基于Spark作业历史信息,训练了高斯混合模型(GMM);最后,使用训练后的模型对Spark作业的运行时资源消耗信息进行分类并找出导致性能下降的作业。实验结果表明,所提方法能检测出90.2%的异常作业,且其对Spark作业性能的影响仅有4.7%。该方法能减轻查错的工作量,帮助用户更快地发现Spark的异常作业。
[Abstract]:The Spark computing framework is used by more and more enterprises as the framework for big data analysis, which adds to the complexity of the system because it is usually deployed in distributed and cloud environments. It has always been very difficult to monitor the performance of Spark framework and find jobs that lead to performance degradation. In order to solve this problem, a real-time monitoring and analysis method for Spark performance in distributed container environment is proposed and written. Through embedding code in Spark and monitoring API files in Docker container, the information of resource consumption at job run time is obtained and integrated. Then, Gao Si mixed model is trained based on Spark job history information. Using the trained model to classify the resource consumption information of the Spark jobs and find out the jobs that lead to the deterioration of the performance. The experimental results show that the proposed method can detect 90.2% abnormal jobs, and the results of the experiments show that the proposed method can detect 90.2% of the abnormal jobs. This method can reduce the workload of error detection and help users to find abnormal jobs of Spark more quickly.
【作者单位】: 同济大学计算机科学与技术系;嵌入式系统与服务计算教育部重点实验室(同济大学);
【分类号】:TP18;TP277
【相似文献】
相关期刊论文 前10条
1 马继涌,高文;一种基于最小误分率估计高斯混合模型参数的方法[J];计算机学报;1999年08期
2 张钦礼;王士同;谭左平;;二型Takagi-Sugeno-Kang模糊模型和不确定高斯混合模型的等价性[J];控制理论与应用;2009年02期
3 何明;冯博琴;马兆丰;傅向华;;一种基于高斯混合模型的无监督粗糙聚类方法[J];哈尔滨工业大学学报;2006年02期
4 张晓娜;何仁;刘志强;陈士安;倪捷;;基于空间信息高斯混合模型的运动车辆检测[J];江苏大学学报(自然科学版);2011年04期
5 胡庆辉;丁立新;陆玉靖;何进荣;;一种快速、鲁棒的有限高斯混合模型聚类算法[J];计算机科学;2013年08期
6 房胜;钟玉琢;;一种基于高斯混合模型的视频监控运动物体提取系统[J];计算机科学;2005年12期
7 张磊;李行善;于劲松;代京;;一种基于高斯混合模型粒子滤波的故障预测算法[J];航空学报;2009年02期
8 陶新民;曹盼东;宋少宇;付丹丹;;基于半监督高斯混合模型核的支持向量机分类算法[J];信息与控制;2013年01期
9 张虹;任玉升;;利用高斯混合模型进行烟气黑度智能检测[J];环境污染与防治;2008年07期
10 胡波;朱谷昌;张远飞;冷超;;基于高斯混合模型的遥感信息提取方法研究[J];国土资源遥感;2012年04期
相关会议论文 前10条
1 骆俊;马尽文;;高斯混合模型的遗传分基融合算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
2 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
6 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 邢建春;苗朋厚;王平;;工厂生产调度分布式监控系统研究[A];第二十一届中国控制会议论文集[C];2002年
8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
9 吴冬;石中锁;;多路电压信号的数据采集和分布式监控系统的设计[A];冶金轧制过程自动化技术交流会论文集[C];2005年
10 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
相关重要报纸文章 前3条
1 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
2 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
3 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
相关博士学位论文 前10条
1 罗林;基于数据驱动的非线性过程故障诊断若干问题研究[D];浙江大学;2015年
2 赖裕平;非高斯混合模型的变分学习算法研究[D];北京邮电大学;2014年
3 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年
4 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年
5 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年
6 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年
7 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
8 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
9 胡巍;面向格结构的机器学习[D];上海交通大学;2009年
10 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年
相关硕士学位论文 前10条
1 范苗;基于高斯混合模型的时变过程软测量建模[D];浙江大学;2015年
2 王炳辉;基于层次贝叶斯自适应稀疏的高斯混合模型[D];大连理工大学;2015年
3 张小林;基于高斯混合模型和非负矩阵分解的复杂网络社区检测[D];西安电子科技大学;2014年
4 王春辉;基于高斯混合模型的多源异类交通数据融合研究[D];杭州师范大学;2016年
5 孙健芳;基于高斯混合模型的多模态过程监测[D];东北大学;2013年
6 沈乐阳;生物信息学中的不平衡学习新方法研究[D];南京理工大学;2017年
7 钟鑫;基于逻辑回归和高斯混合模型的设备故障诊断技术研究与应用[D];北京化工大学;2010年
8 周红;基于进化优化方法的高斯混合模型在智能数据分析中的应用[D];华东理工大学;2014年
9 赵晓莎;基于贝叶斯阴阳机的高斯混合模型在手写在线签名识别中的应用[D];华东理工大学;2015年
10 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年
,本文编号:1680579
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1680579.html