基于大数据的Hadoop并行计算优化处理性能分析
[Abstract]:With the development and popularization of new generation mobile communication, Internet of things, cloud computing and other new technologies in recent years, the data flow increases explosively, and the pressure of data processing in the original communication system increases. The MapReduce programming architecture in distributed computing Hadoop has become a mature solution in the fields of text analysis, natural language processing, business data processing and so on with its powerful data processing ability. It can meet the requirement of data processing in the field of communication. However, as the amount of data increases, the configuration parameters involved further increase, configuration parameters optimization has become the main bottleneck limiting the performance of MapReduce. Hadoop configuration involves more than 200 parameters, About 13 of them will have a great impact on the running jobs, and these parameters determine the performance of the cluster as a whole. Based on performance tuning, a new type of parameter configuration analysis system is designed in this paper, which can optimize the configuration of parameters for each job. In this paper, based on the original MapReduce framework, three new logical components are proposed: parameter analyzer, parameter decision engine and cost-based optimization model. Among them, the parameter analyzer will collect the relevant statistics in the unmodified MapReduce program, and the parameter decision engine will refine the prediction of each parameter domain. The cost-based optimization model simplifies the configuration of parameters on the basis of the first two and gives the optimal parameters. Under the combined use of the above three components, the optimal parameter configuration can be given for each job. The validity of the three logic components proposed in this paper is verified by the comprehensive evaluation of the optimized parameters of the typical applications in the main fields of MapReduce: word frequency statistics, word co-occurrence statistics and ordering. After testing and verification, compared with the optimal parameters obtained by the three logical components designed in this paper, the rule of thumb and the default parameters are superior and effective in solving the bottleneck problem of Hadoop server cluster performance. The new optimization model simplifies the configuration of parameters and is innovative and practical.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP274.2;TN92
【相似文献】
相关期刊论文 前10条
1 谢晓兰,韩可轶,王林;提高Java程序性能的若干方法[J];计算机与现代化;2005年08期
2 郑小蓉;;高职学院学生信息管理系统性能优化问题分析[J];中国新技术新产品;2009年22期
3 王晓东;;浅谈计算机性能优化技术中的问题及对策[J];计算机光盘软件与应用;2014年03期
4 王玉兰;“九七”计算机系统的性能优化[J];电信技术;2002年02期
5 马晶;;信息系统中数据库的性能优化[J];科技信息;2010年14期
6 张淑坤;;工艺流程改进在告警采集系统性能优化中的应用[J];计算机光盘软件与应用;2013年02期
7 刘军,杨卫春;九七系统性能优化技术(二)[J];江西通信科技;2001年04期
8 陈苏蓉;朱晓辉;;SQL Server 2008性能优化研究[J];电脑知识与技术;2009年34期
9 靳春霞;;计算机系统性能优化研究[J];河南科技;2010年15期
10 徐跃伟;;网上购物系统的实现及性能优化[J];计算机时代;2012年01期
相关会议论文 前10条
1 姚杰;;宝钢不锈钢系统数据库性能优化方案[A];中国计量协会冶金分会2007年会论文集[C];2007年
2 代桂平;殷保群;奚宏生;周亚平;;受控M/G/1排队系统的性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年
3 李彦;王屹;徐继明;;ERP系统的性能优化[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年
4 赵海波;杨昭;方筝;徐振军;;燃气压缩式热泵系统全年季节性能优化[A];中国制冷学会2007学术年会论文集[C];2007年
5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
6 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年
7 高明星;;DB2数据库应用性能优化问题浅谈[A];铁道部信息技术中心成立30周年暨铁路运输管理信息系统(TMIS)工程全面竣工投产TMIS工程建设论文专辑(二)[C];2005年
8 高明星;;DB2数据库应用性能优化问题浅谈[A];中国铁道学会——2004年度学术活动优秀论文评奖论文集[C];2005年
9 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];2008中国可持续发展论坛论文集(3)[C];2008年
10 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];全国火电大机组(600MW级)竞赛第十二届年会论文集(上册)[C];2008年
相关重要报纸文章 前5条
1 陈翔;性能优化只能救火[N];中国计算机报;2007年
2 本报记者 郭平;EMC简单高效实现私有云[N];计算机世界;2010年
3 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年
4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年
5 驱动之家;加点“催化剂”引爆你的“镭”[N];中国计算机报;2002年
相关博士学位论文 前6条
1 陈伟锋;大规模复杂过程系统的高性能优化理论与方法研究[D];浙江大学;2011年
2 李磊;分布式系统中容错机制性能优化技术研究[D];国防科学技术大学;2007年
3 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年
4 魏丫丫;Web传输的性能优化[D];清华大学;2006年
5 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年
6 毛宏燕;基于部分计值的服务性能优化研究[D];上海交通大学;2006年
相关硕士学位论文 前10条
1 唐沙;工程信息管理系统的性能优化研究[D];西南交通大学;2007年
2 曹珂;教育管理软件互操作应用系统及其性能优化[D];浙江大学;2005年
3 刘
本文编号:2448861
本文链接:https://www.wllwen.com/kejilunwen/wltx/2448861.html