基于YARN框架下并行化计算的研究
发布时间:2017-05-15 07:10
本文关键词:基于YARN框架下并行化计算的研究,由笔耕文化传播整理发布。
【摘要】:Apache开源组织开发的Hadoop框架中最核心的设计就是MapReduce编程模型和HDFS分布式文件系统。MapReduce为海量的数据提供了并行化计算,而HDFS为海量的数据提供了存储。MapReduce是一种并行编程模型,它主要用于海量数据集的并行运算。在最初推出的几年里,这种并行编程模型取得了众多的成功案例,在业界也得到了广泛的支持和肯定,但是随着分布式系统集群的规模不断增长和其他工作负荷的剧增,原框架的问题也就渐渐浮出水面。MapReduce编程模型在现有的机制下需要对它做出大规模的调整来修复其在内存消耗,扩展性,线程模型,可靠性和性能上的缺陷。在过去的几年中,Hadoop团队做了一些bug的修复,但是随着修复的成本越来越高,这表明对原框架作出改变的难度越来越大。所以Apache开源组织为了促进Hadoop框架走的更远,在根本上解决影响MapReduce性能的关键性问题,从0.23.0版本开始,对旧的MapReduce框架进行完全重构,在结构上发生了根本性的变化。Apache开源组织将重构后的MapReduce框架命名为Hadoop 2.0或者叫YARN。本文通过详细的阐述了MapReduce的编程思想,工作原理,具体步骤和方法。接着又详细的阐述了YARN编程模式,以及YARN框架机构,工作原理,具体步骤和方法。并将YARN与MapReduce进行了比较,研究了MapReduce的不足和缺点,并概括了YRAN与MapReduce的不同之处。最后,通过搭建Hadoop集群环境,再基于YARN框架进行了MapReduce并行计算的实验,通过实验证明了,基于YARN框架下并行计算的高效性,可靠性。
【关键词】:Hadoop Map Reduce YARN ID3 并行计算
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP338.6
【目录】:
- 摘要6-7
- Abstract7-10
- 1 绪论10-13
- 1.1 研究背景10
- 1.2 国内外研究状况10-12
- 1.3 研究内容12
- 1.4 论文架构12-13
- 2 MapReduce的概述13-20
- 2.1 MapReduce并行编程模式13-19
- 2.1.1 MapReduce模型13-14
- 2.1.2 MapReduce框架组成14-16
- 2.1.3 MapReduce的工作原理16-18
- 2.1.4 MapReducede的局限性18-19
- 2.2 本章小结19-20
- 3 YARN的概述20-26
- 3.1 YARN的由来20-21
- 3.2 YARN框架原理及运作机制21-23
- 3.3 YARN的工作流程23-24
- 3.4 MapReduce与YRAN的比较24-25
- 3.5 本章小结25-26
- 4 基于YRAN框架下对ID3算法的并行化设计26-34
- 4.1 决策树ID3简介26-27
- 4.2 ID3算法的并行化设计27-28
- 4.2.1 属性并行27
- 4.2.2 节点并行27-28
- 4.3 基于YARN的ID3算法的流程图28-29
- 4.4 基于YARN的ID3算法并行化实现29-33
- 4.4.1 总体设计框架29-30
- 4.4.2 MapReuce的迭代过程30-33
- 4.5 本章小结33-34
- 5 Hadoop系统的实现34-43
- 5.1 Hadoop环境的搭建34-40
- 5.1.1 SSH的配置34-35
- 5.1.2 JDK的安装和配置35
- 5.1.3 YARN的安装和配置35-40
- 5.2 实验结论40-41
- 5.3 本章小结41-43
- 6 总结与展望43-45
- 6.1 论文总结43
- 6.2 展望工作43-45
- 参考文献45-48
- 致谢48
【相似文献】
中国硕士学位论文全文数据库 前1条
1 朱敏明;基于YARN框架下并行化计算的研究[D];西北师范大学;2015年
本文关键词:基于YARN框架下并行化计算的研究,,由笔耕文化传播整理发布。
本文编号:367087
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/367087.html