当前位置:主页 > 科技论文 > 网络通信论文 >

基于大数据的Hadoop并行计算优化处理性能分析

发布时间:2019-03-28 12:24
【摘要】:随着近年来新一代移动通信、物联网、云计算等新兴技术的发展和普及,数据流量呈现爆发式增长,原有通信系统中的数据处理压力增大。而分布式计算Hadoop中的MapReduce编程架构凭借其强大的数据处理能力已经在文本分析、自然语言处理、商业数据处理等领域内成为比较成熟的解决方案,,能够满足现阶段通信领域的数据处理需求。但随着数据量的进一步增大、涉及的配置参数进一步增加,配置参数优化成为目前限制MapReduce性能的主要瓶颈。Hadoop配置涉及了200多个参数,其中有约13左右会对运行的作业产生较大的影响,这些参数恰恰决定了集群整体的性能表现。围绕上述问题,本文以性能调优为基础,设计一种新型的参数配置分析系统,能够针对每一个作业得到相应的最优化的参数配置。 本文在原有MapReduce框架的基础上提出了三个新的逻辑部件:参数分析器、参数判决引擎、基于代价的优化模型。其中,参数分析器会在未修改的MapReduce程序中收集相关统计信息;参数判决引擎会对各个参数域进行细化的预测;基于代价的优化模型则是在前两者的基础上将参数配置简单化,给出最优化参数。上述三个部件综合使用下,可以针对每一个作业给出最优化的参数配置。 通过对MapReduce主要领域内的典型应用:词频统计、词共现统计、排序进行优化后参数的综合评估来验证本文提出的三个逻辑部件的有效性。经过测试和验证,经过本文所设计的三个逻辑部件得出的最优化参数相比较经验法则与默认参数在解决Hadoop服务器集群的性能瓶颈问题上具有优越性和有效性。新的优化模型将参数配置简单化,且具有创新性和实用性。
[Abstract]:With the development and popularization of new generation mobile communication, Internet of things, cloud computing and other new technologies in recent years, the data flow increases explosively, and the pressure of data processing in the original communication system increases. The MapReduce programming architecture in distributed computing Hadoop has become a mature solution in the fields of text analysis, natural language processing, business data processing and so on with its powerful data processing ability. It can meet the requirement of data processing in the field of communication. However, as the amount of data increases, the configuration parameters involved further increase, configuration parameters optimization has become the main bottleneck limiting the performance of MapReduce. Hadoop configuration involves more than 200 parameters, About 13 of them will have a great impact on the running jobs, and these parameters determine the performance of the cluster as a whole. Based on performance tuning, a new type of parameter configuration analysis system is designed in this paper, which can optimize the configuration of parameters for each job. In this paper, based on the original MapReduce framework, three new logical components are proposed: parameter analyzer, parameter decision engine and cost-based optimization model. Among them, the parameter analyzer will collect the relevant statistics in the unmodified MapReduce program, and the parameter decision engine will refine the prediction of each parameter domain. The cost-based optimization model simplifies the configuration of parameters on the basis of the first two and gives the optimal parameters. Under the combined use of the above three components, the optimal parameter configuration can be given for each job. The validity of the three logic components proposed in this paper is verified by the comprehensive evaluation of the optimized parameters of the typical applications in the main fields of MapReduce: word frequency statistics, word co-occurrence statistics and ordering. After testing and verification, compared with the optimal parameters obtained by the three logical components designed in this paper, the rule of thumb and the default parameters are superior and effective in solving the bottleneck problem of Hadoop server cluster performance. The new optimization model simplifies the configuration of parameters and is innovative and practical.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP274.2;TN92

【相似文献】

相关期刊论文 前10条

1 谢晓兰,韩可轶,王林;提高Java程序性能的若干方法[J];计算机与现代化;2005年08期

2 郑小蓉;;高职学院学生信息管理系统性能优化问题分析[J];中国新技术新产品;2009年22期

3 王晓东;;浅谈计算机性能优化技术中的问题及对策[J];计算机光盘软件与应用;2014年03期

4 王玉兰;“九七”计算机系统的性能优化[J];电信技术;2002年02期

5 马晶;;信息系统中数据库的性能优化[J];科技信息;2010年14期

6 张淑坤;;工艺流程改进在告警采集系统性能优化中的应用[J];计算机光盘软件与应用;2013年02期

7 刘军,杨卫春;九七系统性能优化技术(二)[J];江西通信科技;2001年04期

8 陈苏蓉;朱晓辉;;SQL Server 2008性能优化研究[J];电脑知识与技术;2009年34期

9 靳春霞;;计算机系统性能优化研究[J];河南科技;2010年15期

10 徐跃伟;;网上购物系统的实现及性能优化[J];计算机时代;2012年01期

相关会议论文 前10条

1 姚杰;;宝钢不锈钢系统数据库性能优化方案[A];中国计量协会冶金分会2007年会论文集[C];2007年

2 代桂平;殷保群;奚宏生;周亚平;;受控M/G/1排队系统的性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年

3 李彦;王屹;徐继明;;ERP系统的性能优化[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年

4 赵海波;杨昭;方筝;徐振军;;燃气压缩式热泵系统全年季节性能优化[A];中国制冷学会2007学术年会论文集[C];2007年

5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

6 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年

7 高明星;;DB2数据库应用性能优化问题浅谈[A];铁道部信息技术中心成立30周年暨铁路运输管理信息系统(TMIS)工程全面竣工投产TMIS工程建设论文专辑(二)[C];2005年

8 高明星;;DB2数据库应用性能优化问题浅谈[A];中国铁道学会——2004年度学术活动优秀论文评奖论文集[C];2005年

9 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];2008中国可持续发展论坛论文集(3)[C];2008年

10 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];全国火电大机组(600MW级)竞赛第十二届年会论文集(上册)[C];2008年

相关重要报纸文章 前5条

1 陈翔;性能优化只能救火[N];中国计算机报;2007年

2 本报记者 郭平;EMC简单高效实现私有云[N];计算机世界;2010年

3 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年

4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年

5 驱动之家;加点“催化剂”引爆你的“镭”[N];中国计算机报;2002年

相关博士学位论文 前6条

1 陈伟锋;大规模复杂过程系统的高性能优化理论与方法研究[D];浙江大学;2011年

2 李磊;分布式系统中容错机制性能优化技术研究[D];国防科学技术大学;2007年

3 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年

4 魏丫丫;Web传输的性能优化[D];清华大学;2006年

5 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年

6 毛宏燕;基于部分计值的服务性能优化研究[D];上海交通大学;2006年

相关硕士学位论文 前10条

1 唐沙;工程信息管理系统的性能优化研究[D];西南交通大学;2007年

2 曹珂;教育管理软件互操作应用系统及其性能优化[D];浙江大学;2005年

3 刘

本文编号:2448861


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2448861.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户43a84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com