MapReduce模型的性能优化研究

发布时间:2018-05-06 22:43

  本文选题:MapReduce + 动态调度 ; 参考:《郑州大学》2017年硕士论文


【摘要】:随着互联网、云计算以及物联网的快速发展,电子商务、电子政务、社交网络等新应用为人们的日常生活和工作带来极大方便,同时也使数据产生的方式越来越多样化,数据量呈爆炸式增长。在大数据的时代,MapReduce以其高效率、易扩展、简易性等一系列特性,成为现阶段海量数据处理的主流模型。但是,MapReduce现有的数据分配机制易导致输入数据倾斜的问题,造成少数的几个点上分配了大部分的数据,最终导致各节点的负载不同;在现实生活中需要被处理的海量数据大部分都是呈偏态分布得,即Zipf分布,这样就会导致一些数据对应的记录数不均等。同时,易导致分区一样的数据汇聚到性能低的节点上,造成各节点作业执行时间不同的现象。对于密集型数据任务,在拉取数据时会造成大量的磁盘访问以及竞争有限的网络宽带资源等瓶颈。MapReduce性能优化的关键问题之一是数据倾斜。为了优化MapReduce数据倾斜的问题,在本文中提出了MapReduce在线抽样分区的负载均衡优化机制。该机制在任务开始之前,首先对源数据进行抽样分析操作,来预测源数据分布的特征;根据数据分布特征,动态地调用不同的数据分区优化策略;在任务执行过程中,实时监测每个节点的负载,同时动态优化对应的数据分区策略。为提升异构环境下的MapReduce性能,本文提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic MapReduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments)。DTHE在作业执行前,首先标记部分任务作为节点样本任务并优先处理,在执行其他任务时分析样本任务,预测节点性能和数据分布特征,动态采取相应的调度策略;在作业运行中实时监测节点任务状态,提前拉取节点下一个任务数据到本地内存。实验结果表明:在异构环境下,DTEH能够缩短5.1%的作业执行时间并减少磁盘I/O,有效提升MapReduce性能。
[Abstract]:With the rapid development of the Internet, cloud computing and the Internet of things, new applications such as e-commerce, e-government, social networking bring great convenience to people's daily life and work, and make the way of data generation more and more diverse. The amount of data increased explosively. In big data's time, MapReduce has become the mainstream model of mass data processing because of its high efficiency, expansibility and simplicity. However, the existing data distribution mechanism of MapReduce can easily lead to the problem of input data skew, resulting in the distribution of most of the data on a few points, resulting in different load of each node. In real life, most of the massive data that need to be processed are skewed distribution, that is, Zipf distribution, which will lead to some data corresponding to the number of records is not equal. At the same time, it is easy to converge the same data into the low performance nodes, resulting in different job execution time of each node. For the intensive data tasks, data skew is one of the key problems in the performance optimization of MapReduce, which will cause a lot of disk access and limited network broadband resources. In order to optimize the skew of MapReduce data, a load balancing optimization mechanism for MapReduce online sampling partition is proposed in this paper. Before the task starts, the mechanism first carries on the sampling analysis to the source data to predict the source data distribution characteristic, according to the data distribution characteristic, dynamically invokes different data partition optimization strategy, in the task execution process, The load of each node is monitored in real time and the corresponding data partition strategy is dynamically optimized. In order to improve the performance of MapReduce in heterogeneous environment, this paper proposes a dynamic MapReduce scheduling strategy based on Node Job time Awareness: MapReduce dynamic MapReduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments).DTHE before job execution. First, some tasks are labeled as node sample tasks and processed first, then the sample tasks are analyzed when other tasks are executed, and the node performance and data distribution characteristics are predicted, and corresponding scheduling strategies are adopted dynamically. The task state of the node is monitored in real time during the operation, and the next task data is pulled to the local memory in advance. The experimental results show that DTEH can shorten the job execution time by 5.1% and reduce the disk I / O in heterogeneous environment, which can effectively improve the performance of MapReduce.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 ;产品性能优化技术的新进展[J];CAD/CAM与制造业信息化;2003年09期

2 丁燕云;魏娟;;浅析SQL数据库的性能优化问题[J];科技信息(学术研究);2007年34期

3 ;简单易用网络性能优化软件[J];网络与信息;1999年10期

4 袁山龙,吴洁明;证券网上集中交易系统性能优化的研究与应用[J];微计算机应用;2003年05期

5 张建华;王群华;;对系统性能优化的十点辨析[J];计算机系统应用;2007年05期

6 王勇;;基于SQL数据库的性能优化问题分析[J];电脑知识与技术;2008年15期

7 王保平;;性能优化的简单法则[J];程序员;2009年09期

8 李培慧;何宗键;;某人力资源管理系统中用户导入模块性能优化方案分析[J];科技信息;2010年35期

9 晓慧;;本本性能优化圣手[J];电脑知识与技术(经验技巧);2012年01期

10 王江伟;陈琛;;浅析软件性能优化[J];科技风;2012年08期

相关会议论文 前10条

1 姚杰;;宝钢不锈钢系统数据库性能优化方案[A];中国计量协会冶金分会2007年会论文集[C];2007年

2 代桂平;殷保群;奚宏生;周亚平;;受控M/G/1排队系统的性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年

3 李彦;王屹;徐继明;;ERP系统的性能优化[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年

4 赵海波;杨昭;方筝;徐振军;;燃气压缩式热泵系统全年季节性能优化[A];中国制冷学会2007学术年会论文集[C];2007年

5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

6 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年

7 高明星;;DB2数据库应用性能优化问题浅谈[A];铁道部信息技术中心成立30周年暨铁路运输管理信息系统(TMIS)工程全面竣工投产TMIS工程建设论文专辑(二)[C];2005年

8 高明星;;DB2数据库应用性能优化问题浅谈[A];中国铁道学会——2004年度学术活动优秀论文评奖论文集[C];2005年

9 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];2008中国可持续发展论坛论文集(3)[C];2008年

10 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];全国火电大机组(600MW级)竞赛第十二届年会论文集(上册)[C];2008年

相关重要报纸文章 前5条

1 陈翔;性能优化只能救火[N];中国计算机报;2007年

2 本报记者 郭平;EMC简单高效实现私有云[N];计算机世界;2010年

3 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年

4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年

5 首席记者 崔凌云;动态调度当前经济运行工作 建立落实省委省政府部署台账[N];兰州日报;2014年

相关博士学位论文 前10条

1 李攀攀;云服务SLA合规性验证及性能优化研究[D];哈尔滨工业大学;2016年

2 张明;龙芯平台上高性能计算的性能优化关键问题研究[D];中国科学技术大学;2017年

3 陈伟锋;大规模复杂过程系统的高性能优化理论与方法研究[D];浙江大学;2011年

4 李磊;分布式系统中容错机制性能优化技术研究[D];国防科学技术大学;2007年

5 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年

6 那俊;基于两阶段适应的ASBS性能持续优化方法研究[D];东北大学;2011年

7 魏丫丫;Web传输的性能优化[D];清华大学;2006年

8 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年

9 毛宏燕;基于部分计值的服务性能优化研究[D];上海交通大学;2006年

10 杨富社;大城市常规公交动态调度理论与方法研究[D];长安大学;2015年

相关硕士学位论文 前10条

1 丁雷道;MapReduce模型的性能优化研究[D];郑州大学;2017年

2 邹兴伟;防伪纤维荧光检测仪性能优化研究[D];西南科技大学;2015年

3 邱能俊;科学大数据云分析服务的性能优化技术研究[D];贵州大学;2015年

4 陈俊t,

本文编号:1854258


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1854258.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4fd9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com