改进型MapReduce框架的研究与设计
发布时间:2021-01-03 21:15
随着云计算迎来了蓬勃的发展,Hadoop作为开源云计算平台,得到了国内外很多公司和高校的青睐。相应的,作为Hadoop的子项目和分布式并行处理框架的MapReduce,目前基于它的应用越来越多,特别是在大数据量处理方面,通过将应用任务并行化,使应用系统的处理性能有了很大的提升。但随着应用的广泛性和多样性,针对具体应用,其暴露出来的不足和需要改进之处越来越多,Hadoop还没有到达1.0版本。本文主要对MapReduce框架做以下几方面的探讨:(1)简要介绍了并行计算、分布式计算、云计算三种计算模型的定义及其相关概念,通过分析总结出MapReduce框架是符合三种计算模型的。引入Hadoop和MapReduce框架处理流程和机制,为下文提出改进方案奠定基础(2)通过剖析具体应用以及深入分析框架处理流程和相关源代码实现,总结实际应用中出现的一些影响执行效率的问题,如数据倾斜问题、规约任务不均衡问题和规约调度问题等(3)提供了针对出现问题的改进方案,主要实现了针对中间结果进行切割的切分函数、启动新规约任务的机制以及相应的调度机制,给出了改进后的方案设计架构和实现(4)经过多次、不同级别数据量...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
云计算的层次及服务
apReduce框架附带了一个包含许多实用型的Mapper、Redueer和分区函数的类库。推测式执行方式所谓的推测执行,就是当所有任务都开始运行之后,作业追踪器(JobTracker)会统计所有任务的平均进度,如果某个任务所在的任务节点的机器配置比较低或者CPU负责很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时作业追踪器会启动一个新的任务来执行相同的操作,原有任务和新任务哪个先执行完就把另外一个停止掉。以下是推测执行的两个配置项,它们默认值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整个工作过程如下图[4]151所示:
业的所有任务,这些任务通常分散于不同的任务节点上,主节点监控它们的执行,重新执行已经失败的任务。而任务节点仅负责执行由主节点指派的任务。图4典型的 HadoopCluster架构图Hadoop的客户端提交作业(jar包/可执行程序等)和配置信息给作业追踪器,作业配置是由输入/输出的路径、供映射函数和规约函数和作业的其他的参数等构成。作业追踪器通过心跳信息将配置等信息给任务节点,同时调度任务并监控
本文编号:2955500
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
云计算的层次及服务
apReduce框架附带了一个包含许多实用型的Mapper、Redueer和分区函数的类库。推测式执行方式所谓的推测执行,就是当所有任务都开始运行之后,作业追踪器(JobTracker)会统计所有任务的平均进度,如果某个任务所在的任务节点的机器配置比较低或者CPU负责很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时作业追踪器会启动一个新的任务来执行相同的操作,原有任务和新任务哪个先执行完就把另外一个停止掉。以下是推测执行的两个配置项,它们默认值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整个工作过程如下图[4]151所示:
业的所有任务,这些任务通常分散于不同的任务节点上,主节点监控它们的执行,重新执行已经失败的任务。而任务节点仅负责执行由主节点指派的任务。图4典型的 HadoopCluster架构图Hadoop的客户端提交作业(jar包/可执行程序等)和配置信息给作业追踪器,作业配置是由输入/输出的路径、供映射函数和规约函数和作业的其他的参数等构成。作业追踪器通过心跳信息将配置等信息给任务节点,同时调度任务并监控
本文编号:2955500
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2955500.html