改进型MapReduce框架的研究与设计

发布时间：2021-01-03 21:15

　　随着云计算迎来了蓬勃的发展,Hadoop作为开源云计算平台,得到了国内外很多公司和高校的青睐。相应的,作为Hadoop的子项目和分布式并行处理框架的MapReduce,目前基于它的应用越来越多,特别是在大数据量处理方面,通过将应用任务并行化,使应用系统的处理性能有了很大的提升。但随着应用的广泛性和多样性,针对具体应用,其暴露出来的不足和需要改进之处越来越多,Hadoop还没有到达1.0版本。本文主要对MapReduce框架做以下几方面的探讨：（1）简要介绍了并行计算、分布式计算、云计算三种计算模型的定义及其相关概念,通过分析总结出MapReduce框架是符合三种计算模型的。引入Hadoop和MapReduce框架处理流程和机制,为下文提出改进方案奠定基础（2）通过剖析具体应用以及深入分析框架处理流程和相关源代码实现,总结实际应用中出现的一些影响执行效率的问题,如数据倾斜问题、规约任务不均衡问题和规约调度问题等（3）提供了针对出现问题的改进方案,主要实现了针对中间结果进行切割的切分函数、启动新规约任务的机制以及相应的调度机制,给出了改进后的方案设计架构和实现（4）经过多次、不同级别数据量...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

云计算的层次及服务

工作过程,追踪器,平均进度,机器配置

apReduce框架附带了一个包含许多实用型的Mapper、Redueer和分区函数的类库。推测式执行方式所谓的推测执行，就是当所有任务都开始运行之后，作业追踪器(JobTracker)会统计所有任务的平均进度，如果某个任务所在的任务节点的机器配置比较低或者CPU负责很高(原因很多)，导致任务执行比总体任务的平均执行要慢，此时作业追踪器会启动一个新的任务来执行相同的操作，原有任务和新任务哪个先执行完就把另外一个停止掉。以下是推测执行的两个配置项，它们默认值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整个工作过程如下图[4]151所示:

架构图,架构,追踪器,主节点

业的所有任务，这些任务通常分散于不同的任务节点上，主节点监控它们的执行，重新执行已经失败的任务。而任务节点仅负责执行由主节点指派的任务。图4典型的 HadoopCluster架构图Hadoop的客户端提交作业(jar包/可执行程序等)和配置信息给作业追踪器，作业配置是由输入/输出的路径、供映射函数和规约函数和作业的其他的参数等构成。作业追踪器通过心跳信息将配置等信息给任务节点，同时调度任务并监控

本文编号：2955500

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2955500.html

上一篇：异构存储环境的HDFS副本放置管理策略与检索算法研究
下一篇：基于Pytorch和神经网络的云数据中心故障检测

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|