当前位置:主页 > 科技论文 > 计算机论文 >

基于块聚集的MapReduce性能研究与优化

发布时间:2017-06-02 21:12

  本文关键词:基于块聚集的MapReduce性能研究与优化,由笔耕文化传播整理发布。


【摘要】:摘要:随着计算机和互联网技术的快速发展,使得云计算技术应运而生。由于海量数据已经不能够存储在单一的计算机上,传统的串行处理需要大量的时间花销,因此如何对海量数据进行高效处理成为一个亟需解决的问题。MapReduce作为一个支持分布式并行处理海量数据的计算模型,广泛适用于机器学习、数据挖掘和科学计算等数据密集型应用领域。:Hadoop是MapReduce计算模型的一个开源实现,已经被Yahoo,Amazon和Facebook等企业用于在搜索日志和访问日志这类大数据集上进行各项数据挖掘。虽然Hadoop的使用价值已经得到了大家的认可,但是还存在很多问题,其性能有待进一步的改善。 Hadoop的核心组件包括Hadoop文件系统(HDFS)和MapReduce计算框架,它们是Google文件系统(GFS)和MapReduce的开源实现版本。在对HDFS和MapReduce进行了深入的研究和实践的基础上,本文阐述了Hadoop共享集群不能保证不同数据量作业都高效运行的问题。这主要体现于共享集群在保证相对较小数据量作业的并行性能的同时,在该集群上运行大数据量作业会产生非常多的map任务,给集群的控制节点带来非常大的压力,并且在初始化这些map任务时会耗费非常多的资源。本文从文件系统(HDFS)和分布式并行计算框架(MapReduce)相结合的角度出发,提出了基于块聚集的自适应分片算法,使集群的任务分配机制按照作业的实际数据量、数据文件个数和作业可用计算资源等因素自行确定分片的大小,并使数据以分片为单位在节点上聚集性存储。该算法保证了不同数据量作业的并行度,并适当降低了大数据量作业的map任务个数,减少了作业运行过程中初始化任务的开销和控制节点的压力,从而有效地提高了集群的运行性能。 当前Hadoop在实现上假定集群中的所有节点的计算能力是相同的,并假定大部分map任务的数据都存储在本地磁盘上,在实际执行map任务的时候数据的本地性并没有得到很好的体现。这使得异构Hadoop集群的运行性能极端低下。本文也针对这一问题展开讨论,并提出根据集群节点的实际计算能力和输入数据的实际大小计算作业的分片大小,同时将分片内的数据按照节点计算能力进行集聚性存储,提高异构集群的数据本地性。实验证明优化后的Hadoop在异构集群中能够更加高效的运行计算任务。
【关键词】:云计算 GFS Hadoop HDFS MapReduce 块聚集
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP302.7
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-9
  • 9-12
  • 1 引言12-16
  • 1.1 课题研究背景12-14
  • 1.2 Hadoop应用现状14
  • 1.3 论文研究内容14-15
  • 1.4 论文结构15
  • 1.5 本章小结15-16
  • 2 Hadoop平台介绍16-38
  • 2.1 简介16
  • 2.2 Hadoop文件系统(HDFS)16-27
  • 2.2.1 HDFS的主要特征17
  • 2.2.2 HDFS体系结构17-20
  • 2.2.3 HDFS靠性保障机制20-22
  • 2.2.4 HDFS的存储机制22-24
  • 2.2.5 HDFS的数据交互过程24-27
  • 2.3 Hadoop的MapReduce计算模型27-35
  • 2.3.1 MapReduce框架组件28-30
  • 2.3.2 MapReduce的执行流程30-32
  • 2.3.3 MapReduce作业调度机制32-33
  • 2.3.4 MapReduce任务执行策略33-34
  • 2.3.5 MapReduce的容错机制34-35
  • 2.4 Hadoop存在的问题及研究现状35-37
  • 2.5 本章小结37-38
  • 3 Hadoop任务粒度研究与改进38-58
  • 3.1 作业的任务划分机制存在的问题38-47
  • 3.1.1 作业分片38-39
  • 3.1.2 分片划分的影响因素39-41
  • 3.1.3 现有框架的相关实现41-46
  • 3.1.4 实现中存在的问题46-47
  • 3.2 基于块聚集的自适应分片算法47-53
  • 3.2.1 分片算法的设计47-50
  • 3.2.2 块聚集存储机制50-53
  • 3.3 实验及分析53-56
  • 3.3.1 实验环境53-54
  • 3.3.2 实验性能对比分析54-56
  • 3.4 本章小结56-58
  • 4 异构集群的性能研究与改进58-65
  • 4.1 异构集群数据存储方案59-61
  • 4.2 自适应分片算法在异构环境的应用61-62
  • 4.3 实验及分析62-64
  • 4.4 本章小结64-65
  • 5 总结和展望65-67
  • 5.1 总结65-66
  • 5.2 展望66-67
  • 参考文献67-69
  • 作者简历69-71
  • 学位论文数据集71

【相似文献】

中国期刊全文数据库 前10条

1 王宏宇;;Hadoop平台在云计算中的应用[J];软件;2011年04期

2 陈俊;陈孝威;;基于Hadoop建立云计算系统[J];贵州大学学报(自然科学版);2011年03期

3 金欣;王晶;沈奇威;;自中心网络生成的高效分布式设计与实现[J];电信科学;2010年11期

4 廖雷;如何在Windows下由一个任务启动和中止另一个任务[J];现代计算机;1996年04期

5 郑欣杰;朱程荣;熊齐邦;;基于MapReduce的分布式光线跟踪的设计与实现[J];计算机工程;2007年22期

6 郑霄;李宏亮;吴东;原昊;;分布式状态空间生成的设计与实现[J];计算机工程与应用;2009年32期

7 谢桂兰;罗省贤;;基于Hadoop MapReduce模型的应用研究[J];微型机与应用;2010年08期

8 李丽英;唐卓;李仁发;;基于LATE的Hadoop数据局部性改进调度算法[J];计算机科学;2011年11期

9 丁光华;周继鹏;周敏;;基于MapReduce的并行贝叶斯分类算法的设计与实现[J];微计算机信息;2010年09期

10 李远方;邓世昆;闻玉彪;韩月阳;;Hadoop-MapReduce下的PageRank矩阵分块算法[J];计算机技术与发展;2011年08期

中国重要会议论文全文数据库 前10条

1 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

2 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年

3 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

5 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年

6 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年

7 陈兆波;李鹏飞;李波;;通过优化预分配算法提升CDMA数据能力[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年

8 高珏;;关于数字出版地图数据转换的技术[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年

9 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年

10 高珏;;关于数字地图数据转换的技术[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年

中国重要报纸全文数据库 前10条

1 济文;济南市文化局“文化服务年”目标任务启动[N];中国文化报;2005年

2 王晶邋通讯员 李淑艳;西部原油管道场站具备送电条件[N];中国石油报;2007年

3 ;不仅仅需要管理数据量[N];人民邮电;2011年

4 张承东 编译;数据量增长让IT管理职位发生变化[N];网络世界;2007年

5 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年

6 本报记者 郭涛;填补数据量增长与存储性能之间的鸿沟[N];中国计算机报;2009年

7 记者 段金平 于德福;北京:地质信息服务系统初步到位[N];地质勘查导报;2007年

8 一文;10年后年数据量将增45倍[N];中国消费者报;2010年

9 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年

10 小詹;富思特中标奥运景观大道粉饰工程[N];中国建材报;2007年

中国博士学位论文全文数据库 前10条

1 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

2 姬鸣;任务优先及中断[D];陕西师范大学;2012年

3 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年

4 史恒亮;云计算任务调度研究[D];南京理工大学;2012年

5 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年

6 丁泽柳;一体化信息基础设施中面向MapReduce的递归层次结构数据中心网络研究[D];国防科学技术大学;2012年

7 郑书朋;飞行模拟器的计算机系统实时调度与通信关键技术研究[D];哈尔滨工业大学;2011年

8 韩海雯;MapReduce计算任务调度的资源配置优化研究[D];华南理工大学;2013年

9 罗永红;无缝运输信息网格的若干关键技术研究[D];中南大学;2011年

10 吴昊;云计算环境下智能优化算法及其在SaaS中的应用研究[D];合肥工业大学;2013年

中国硕士学位论文全文数据库 前10条

1 李俊;基于块聚集的MapReduce性能研究与优化[D];北京交通大学;2014年

2 金静;飞机电源系统配电技术研究[D];上海交通大学;2012年

3 孙煦雪;面向多媒体编解码应用的多处理器系统芯片任务并行化方法的研究与实现[D];浙江大学;2010年

4 郑媛媛;支持透明软硬件编程的混合系统的研究与实现[D];东北大学;2008年

5 张铁军;基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试[D];重庆大学;2011年

6 姜淼;Hadoop云平台下调度算法的研究[D];吉林大学;2012年

7 徐诚;车载移动卫星天线稳定跟踪系统设计及实现[D];南京航空航天大学;2010年

8 陈艳金;MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D];华南理工大学;2011年

9 李志娟;MapReduce仿真及Hadoop公平调度算法研究[D];哈尔滨工程大学;2013年

10 钱宁;基于云计算平台的电信业务支撑系统中调度技术的研究[D];南京邮电大学;2011年


  本文关键词:基于块聚集的MapReduce性能研究与优化,,由笔耕文化传播整理发布。



本文编号:416494

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/416494.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户89792***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com