当前位置:主页 > 科技论文 > 软件论文 >

Hadoop中MapReduce的性能优化及可视化工具开发

发布时间:2017-10-05 08:13

  本文关键词:Hadoop中MapReduce的性能优化及可视化工具开发


  更多相关文章: 云计算 Hadoop MapReduce 性能优化 可视化


【摘要】:MapReduce是对海量数据并行处理的编程模型,云计算中的很多重要问题比如搜索引擎服务、庞大的科学计算任务,海量数据的挖掘等都可以通过MapReduce来解决,MapReduce编程模型在云计算中起着至关重要的作用。随着MapReduce越来越多的应用到各个领域,MapReduce的性能问题也得到了学者的关注,同时随着可视化技术的发展,性能优化过程和结果的可视化、学习过程可视化等问题也成了近几年的研究热点。Hadoop作为Google公司Map Reduce编程模型最受欢迎的Java开源实现,使之成为研究MapReduce最重要的平台,本文的性能优化及可视化工具的开发就是基于此平台展开研究的。Hadoop平台在运算过程中作业的调度方式起着至关重要的作用,一个好的作业调度算法可以使作业被执行的顺序、资源被分配的情况更加科学高效,可以提高Hadoop平台的计算性能和资源使用率。首先,在性能优化方面,本文对传统的FIFO算法(First In First Out)进行了研究,发现它没有很好地实现数据的本地性,作业规模很小时会出现数据本地性明显不好的问题,故对FIFO算法进行了改进以提高数据本地性。其次,搭建了Hadoop云计算平台,对文中改进的算法和原始的FIFO算法进行了对比实验和结果分析,结果表明改进的算法提高了作业的数据本地性,节省了本地任务的数据传输时间,从而减少了所有作业的总完成时间:提高了系统的吞吐率。在可视化方面,本文开发了可视化工具,分别应用在性能可视化、学习可视化两个方面。(1)性能可视化:本文基于以上研究结果,将性能优化结果的可视化加入了Hadoop可视化管理平台,从而开发出一款基于性能优化的可视化工具,使用户可以对结果数据进行可视化操作,该模块支持用户选择不同的展现形式,不同的展示平台等。同时为了兼容更多地性能优化方法,通过暴露接口的方式支持功能的扩展。(2)学习可视化:本文面向云计算学习者,开发了一款可视化学习工具——云计算虚拟实验教学系统。系统中包含12个云计算系列实验,主要分为云计算基础知识类和实践交互类,并将这些实验以虚拟化的方式展现出来。在实验设计中充分发挥虚拟实验的交互性、沉浸性和想象性的优势,弥补课堂和实验教学的不足,打破空间与时间的限制,帮助学生了解云计算的基础知识与Hadoop的基本组成和技术原理。虚拟实验开发采用Java技术与Flash技术相结合的方式,并用视频加以佐证,使学生在实验前能够充分了解实验的所有细节。更重要的是,实验模拟了一些常见的错误,并给出了处理方法,使同学们在进行实验时能够及时应对这些错误,避免实际操作时对实验设备造成损害。
【关键词】:云计算 Hadoop MapReduce 性能优化 可视化
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52
【目录】:
  • 致谢5-6
  • 摘要6-8
  • ABSTRACT8-13
  • 1 引言13-18
  • 1.1 研究背景与意义13-14
  • 1.2 国内外研究现状14-16
  • 1.2.1 MapReduce性能分析及优化14-16
  • 1.2.2 基于Hadoop平台的可视化工具16
  • 1.3 研究内容16-17
  • 1.4 论文结构17-18
  • 2 相关技术与现有调度算法18-36
  • 2.1 HADOOP简介18-26
  • 2.1.1 HDFS分布式文件系统19-22
  • 2.1.2 MapReduce计算框架22-26
  • 2.1.3 本地化计算26
  • 2.2 HADOOP调度算法26-29
  • 2.2.1 FIFO调度算法26-27
  • 2.2.2 Hadoop On Demand(HOD)27-28
  • 2.2.3 计算能力调度算法(Capacity Scheduler)28
  • 2.2.4 公平份额调度算法(Fair Scheduler)28-29
  • 2.3 基于HADOOP的可视化技术研究29-35
  • 2.3.1 非程序式可视化工具30-32
  • 2.3.2 程序式可视化工具32-34
  • 2.3.3 基于Hadoop的可视化工具34-35
  • 2.4 本章小结35-36
  • 3 FIFO算法的研究与改进36-45
  • 3.1 FIFO算法分析36-37
  • 3.2 算法目标37
  • 3.3 算法设计37-40
  • 3.3.1 算法基本思想37-38
  • 3.3.2 作业阈值的设置38
  • 3.3.3 算法的具体步骤38-40
  • 3.4 实验平台搭建40-43
  • 3.4.1 集群配置方案40
  • 3.4.2 Hadoop配置与安装40-43
  • 3.5 实验结果及分析43-44
  • 3.6 本章小结44-45
  • 4 基于性能优化的可视化工具45-52
  • 4.1 需求分析45-46
  • 4.2 总体设计架构46-47
  • 4.3 界面设计及效果47-49
  • 4.4 性能优化结果的图表展示49-51
  • 4.5 本章小结51-52
  • 5 可视化学习工具52-64
  • 5.1 界面设计52-53
  • 5.2 实验内容介绍53-56
  • 5.2.1 理论部分54
  • 5.2.2 实践部分54-56
  • 5.3 实验环境56
  • 5.3.1 虚拟实验环境56
  • 5.3.2 现实实验环境56
  • 5.4 技术实现56-63
  • 5.4.1 Swing组件56-57
  • 5.4.2 DJNativeSwing-SWT-1-0-2组件57-59
  • 5.4.3 虚拟技术的实现59-62
  • 5.4.4 存储结构62-63
  • 5.5 本章小结63-64
  • 6 总结与展望64-66
  • 6.1 研究总结64
  • 6.2 研究展望64-66
  • 参考文献66-70
  • 作者简历及攻读硕士学位期间取得的研究成果70-72
  • 学位论文数据集72

【相似文献】

中国期刊全文数据库 前10条

1 丁燕云;魏娟;;浅析SQL数据库的性能优化问题[J];科技信息(学术研究);2007年34期

2 ;简单易用网络性能优化软件[J];网络与信息;1999年10期

3 袁山龙,吴洁明;证券网上集中交易系统性能优化的研究与应用[J];微计算机应用;2003年05期

4 张建华;王群华;;对系统性能优化的十点辨析[J];计算机系统应用;2007年05期

5 王勇;;基于SQL数据库的性能优化问题分析[J];电脑知识与技术;2008年15期

6 王保平;;性能优化的简单法则[J];程序员;2009年09期

7 李培慧;何宗键;;某人力资源管理系统中用户导入模块性能优化方案分析[J];科技信息;2010年35期

8 晓慧;;本本性能优化圣手[J];电脑知识与技术(经验技巧);2012年01期

9 王江伟;陈琛;;浅析软件性能优化[J];科技风;2012年08期

10 杨波;;系统性能优化问题研究[J];科技致富向导;2013年09期

中国重要会议论文全文数据库 前10条

1 姚杰;;宝钢不锈钢系统数据库性能优化方案[A];中国计量协会冶金分会2007年会论文集[C];2007年

2 代桂平;殷保群;奚宏生;周亚平;;受控M/G/1排队系统的性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年

3 李彦;王屹;徐继明;;ERP系统的性能优化[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年

4 赵海波;杨昭;方筝;徐振军;;燃气压缩式热泵系统全年季节性能优化[A];中国制冷学会2007学术年会论文集[C];2007年

5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

6 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年

7 高明星;;DB2数据库应用性能优化问题浅谈[A];铁道部信息技术中心成立30周年暨铁路运输管理信息系统(TMIS)工程全面竣工投产TMIS工程建设论文专辑(二)[C];2005年

8 高明星;;DB2数据库应用性能优化问题浅谈[A];中国铁道学会——2004年度学术活动优秀论文评奖论文集[C];2005年

9 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];2008中国可持续发展论坛论文集(3)[C];2008年

10 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];全国火电大机组(600MW级)竞赛第十二届年会论文集(上册)[C];2008年

中国重要报纸全文数据库 前4条

1 陈翔;性能优化只能救火[N];中国计算机报;2007年

2 本报记者 郭平;EMC简单高效实现私有云[N];计算机世界;2010年

3 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年

4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年

中国博士学位论文全文数据库 前7条

1 陈伟锋;大规模复杂过程系统的高性能优化理论与方法研究[D];浙江大学;2011年

2 李磊;分布式系统中容错机制性能优化技术研究[D];国防科学技术大学;2007年

3 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年

4 那俊;基于两阶段适应的ASBS性能持续优化方法研究[D];东北大学;2011年

5 魏丫丫;Web传输的性能优化[D];清华大学;2006年

6 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年

7 毛宏燕;基于部分计值的服务性能优化研究[D];上海交通大学;2006年

中国硕士学位论文全文数据库 前10条

1 邹兴伟;防伪纤维荧光检测仪性能优化研究[D];西南科技大学;2015年

2 邱能俊;科学大数据云分析服务的性能优化技术研究[D];贵州大学;2015年

3 陈俊t,

本文编号:975699


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/975699.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5cefb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com