当前位置:主页 > 科技论文 > 软件论文 >

MapReduce计算模型性能优化的研究

发布时间:2017-04-26 17:08

  本文关键词:MapReduce计算模型性能优化的研究,,由笔耕文化传播整理发布。


【摘要】:伴随着互联网、物联网和移动互联网的快速发展,每天会产生海量数据,数据处于爆炸式的增长状态,这预示着大数据时代的到来。大数据时代的数据具有数量大、结构复杂的特点,导致数据存储和计算难度的加大。Google提出的MapReduce分布式计算模型简化了海量数据计算的问题,成为研究的热点。所以本文对MapReduce技术的研究和性能的优化具有实际意义。MapReduce是一种分布式计算模型,它简化了程序员编写分布式程序的步骤,因此被广泛应用于大数据领域。Hadoop是MapReduce的开源实现,具备海量数据处理的能力。然而,它的一些处理机制影响了性能的发挥。比如:当数据出现倾斜时,原有的划分方法不能保证节点的负载均衡,集群性能会受影响。因此,需要优化现有的处理机制。本文研究的主要内容是:首先对Hadoop平台进行简单介绍,重点研究MapReduce计算模型,对其组成模块和运行机制进行深入的分析。在分析MapReduce源码的基础上,发现了当数据存在倾斜时节点会出现负载不均的问题和在异构环境下推测执行机制效率低的问题。针对数据存在倾斜负载不均的问题,本文提出了一种抽样的方法,利用抽样获取Map端中间结果的分布信息,在抽样的基础上结合数据局部性产生划分函数,可以使节点负载趋于均衡。针对原有的推测执行机制效率低的问题,本文提出了一种改进的LATE算法,在LATE算法的基础上,利用节点历史信息和数据局部性特点选择快节点备份执行,可以更准确的发现慢任务,提高集群的吞吐率。最后,本文搭建了实验平台对抽样划分方法和改进型的LATE算法进行实验验证。根据实验结果,本文提出的改进算法可以有效提高MapReduce的性能。
【关键词】:大数据 MapReduce 抽样 推测执行 负载平衡
【学位授予单位】:山东建筑大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第1章 绪论10-14
  • 1.1 研究背景及意义10-11
  • 1.2 国内外研究现状11-12
  • 1.3 本文的研究内容12-13
  • 1.4 论文的组织结构13-14
  • 第2章 相关技术介绍14-24
  • 2.1 云计算介绍14-16
  • 2.1.1 云计算的概念14
  • 2.1.2 云计算体系结构14-16
  • 2.1.3 云计算平台16
  • 2.2 MapReduce介绍16-19
  • 2.2.1 MapReduce编程模型16-17
  • 2.2.2 MapReduce的应用17-18
  • 2.2.3 MapReduce倾斜问题18-19
  • 2.3 Hadoop介绍19-22
  • 2.3.1 Hadoop简介19-21
  • 2.3.2 Hadoop生态系统21-22
  • 2.4 本章小结22-24
  • 第3章 基于抽样的负载均衡策略24-37
  • 3.1 MapReduce数据分配问题24-26
  • 3.1.1 Map阶段和Reduce阶段数据分配情况24-25
  • 3.1.2 数据倾斜的原因25-26
  • 3.2 抽样模型26-28
  • 3.2.1 抽样的种类26
  • 3.2.2 抽样过程26-27
  • 3.2.3 理论分析27-28
  • 3.3 数据分配策略28-30
  • 3.4 改进后的MapReduce整体设计30-33
  • 3.5 实验结果与分析33-36
  • 3.5.1 实验环境搭建33
  • 3.5.2 实验结果分析33-36
  • 3.6 本章小结36-37
  • 第4章 MapReduce调度算法的优化37-44
  • 4.1 MapReduce调度算法存在的问题37-38
  • 4.2 改进LATE调度器38-40
  • 4.3 实验结果与分析40-43
  • 4.3.1 实验环境搭建40-41
  • 4.3.2 实验结果分析41-43
  • 4.4 本章小结43-44
  • 第5章 总结与展望44-46
  • 5.1 总结44-45
  • 5.2 展望45-46
  • 参考文献46-50
  • 后记50-51
  • 攻读硕士学位期间论文发表及科研情况51

【参考文献】

中国期刊全文数据库 前8条

1 万聪;王翠荣;王聪;贾朔;;MapReduce模型中reduce阶段负载均衡分区算法研究[J];小型微型计算机系统;2015年02期

2 韩蕾;孙徐湛;吴志川;陈立军;;MapReduce上基于抽样的数据划分最优化研究[J];计算机研究与发展;2013年S2期

3 董新华;李瑞轩;周湾湾;王聪;薛正元;廖东杰;;Hadoop系统性能优化与功能增强综述[J];计算机研究与发展;2013年S2期

4 周家帅;王琦;高军;;一种基于动态划分的MapReduce负载均衡方法[J];计算机研究与发展;2013年S1期

5 傅杰;都志辉;;一种周期性MapReduce作业的负载均衡策略[J];计算机科学;2013年03期

6 冯士雍;倪加勋;邹国华;;抽样调查理论与方法(第二版)[J];中国统计;2012年09期

7 李乔;郑啸;;云计算研究现状综述[J];计算机科学;2011年04期

8 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期

中国硕士学位论文全文数据库 前4条

1 李海峰;基于抽样估计的MapReduce负载平衡研究[D];大连海事大学;2014年

2 邹鹏;基于抽样分区解决MapReduce中的数据倾斜问题[D];大连理工大学;2013年

3 余基映;MapReduce模型的数据分配策略研究[D];华中科技大学;2013年

4 李丽英;面向一种云计算平台的任务调度技术研究[D];湖南大学;2011年


  本文关键词:MapReduce计算模型性能优化的研究,由笔耕文化传播整理发布。



本文编号:328871

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/328871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户97453***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com