当前位置:主页 > 科技论文 > 计算机论文 >

改进型MapReduce框架的研究与设计

发布时间:2021-01-03 21:15
  随着云计算迎来了蓬勃的发展,Hadoop作为开源云计算平台,得到了国内外很多公司和高校的青睐。相应的,作为Hadoop的子项目和分布式并行处理框架的MapReduce,目前基于它的应用越来越多,特别是在大数据量处理方面,通过将应用任务并行化,使应用系统的处理性能有了很大的提升。但随着应用的广泛性和多样性,针对具体应用,其暴露出来的不足和需要改进之处越来越多,Hadoop还没有到达1.0版本。本文主要对MapReduce框架做以下几方面的探讨:(1)简要介绍了并行计算、分布式计算、云计算三种计算模型的定义及其相关概念,通过分析总结出MapReduce框架是符合三种计算模型的。引入Hadoop和MapReduce框架处理流程和机制,为下文提出改进方案奠定基础(2)通过剖析具体应用以及深入分析框架处理流程和相关源代码实现,总结实际应用中出现的一些影响执行效率的问题,如数据倾斜问题、规约任务不均衡问题和规约调度问题等(3)提供了针对出现问题的改进方案,主要实现了针对中间结果进行切割的切分函数、启动新规约任务的机制以及相应的调度机制,给出了改进后的方案设计架构和实现(4)经过多次、不同级别数据量... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

改进型MapReduce框架的研究与设计


云计算的层次及服务

工作过程,追踪器,平均进度,机器配置


apReduce框架附带了一个包含许多实用型的Mapper、Redueer和分区函数的类库。推测式执行方式所谓的推测执行,就是当所有任务都开始运行之后,作业追踪器(JobTracker)会统计所有任务的平均进度,如果某个任务所在的任务节点的机器配置比较低或者CPU负责很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时作业追踪器会启动一个新的任务来执行相同的操作,原有任务和新任务哪个先执行完就把另外一个停止掉。以下是推测执行的两个配置项,它们默认值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整个工作过程如下图[4]151所示:

架构图,架构,追踪器,主节点


业的所有任务,这些任务通常分散于不同的任务节点上,主节点监控它们的执行,重新执行已经失败的任务。而任务节点仅负责执行由主节点指派的任务。图4典型的 HadoopCluster架构图Hadoop的客户端提交作业(jar包/可执行程序等)和配置信息给作业追踪器,作业配置是由输入/输出的路径、供映射函数和规约函数和作业的其他的参数等构成。作业追踪器通过心跳信息将配置等信息给任务节点,同时调度任务并监控


本文编号:2955500

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2955500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c518***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com