MapReduce模型在Hadoop实现中的性能分析及改进优化
发布时间:2021-04-14 02:48
云计算的提出是对互联网的一个冲击,它实现了计算能力的商品化,其透明性和简单的编程模式为开发者带来了更便捷的服务开发和部署方式。2009年被称为云计算元年,Amazon、Google、IBM等诸多IT巨头都把目光聚焦在云计算,将其视为未来发展的主要战略方向。因此,对云计算进行研究即迎合了IT技术的发展趋势,又具有较强的实际意义和商用价值。MapReduce是一种简单的并行计算模型,它将简单的业务逻辑从复杂的实现细节中分离出来,提供了一系列简单强大的接口,通过这些接口可以实现大规模计算得自发的并发和分布执行。MapReduce的这种特性使得它成为了云计算的首要选择。它不仅仅是编程模型,还是优秀的任务调度模型,其作业调度问题已成为业内最热烈的讨论话题之一,并成为云计算系统高效稳定运行的关键技术。Hadoop是对Google公司MapReduce模型的开源实现,它已成为当前应用最广泛的开源云计算平台,但Hadoop发展时间较短,仍有许多不足的地方需要改进。本文对云计算的关键技术之一MapReduce编程模型做了深入的研究,并在Hadoop平台上对MapReduce的典型应用进行了关键性能指标的...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景
1.2 本文的工作
1.3 本文的结构
1.4 本章小结
第二章 相关技术和系统平台研究
2.1 云计算概述
2.1.1 云计算的基本概念
2.1.2 云计算模型
2.1.3 云计算的特性和应用
2.1.3.1 云计算的特性
2.1.3.2 云计算的应用
2.2 并行计算概述
2.2.1 并行计算的基本概念
2.2.2 并行计算中并行机模式
2.2.3 并行计算模型
2.2.4 并行算法
2.3 MAPREDUCE 模型概述
2.3.1 MapReduce 的编程模型
2.3.2 MapReduce 的典型应用
2.3.3 MapReduce 模型的实现方法
2.3.3.1.G oogle 计算环境
2.3.3.2.M apReduce 实现框架
2.3.3.3.M apReduce 的任务颗粒度和并行
2.3.3.4.M apReduce 的容错考虑
2.3.4 Hadoop 中调度算法的研究
2.4 本章小结
第三章 MAPREDUCE 在HADOOP 中的性能评估及分析
3.1 HADOOP 平台的研究
3.1.1 主从式的HDFS
3.1.2 主从式计算系统MapReduce
3.2 MAPREDUCE 性能评估指标的设计
3.3 设计基准测试程序集
3.3.1 基准测试程序的设计
3.3.1.1 字数统计
3.3.1.2 网页级别
3.3.1.3 PennySort
3.3.2 基准测试程序集的衡量指标
3.4 实验平台的搭建
3.4.1 集群配置方案
3.4.2 Hadoop 的配置与安装
3.4.2.1 配置ssh 和JDK
3.4.2.2 Hadoop 的安装配置
3.5 实验方案设计
3.5.1 数据结构的设计
3.5.2 对统计信息进行分析
3.6 实验结果及分析
3.6.1 任务独立响应时间与任务总响应时间
3.6.2 平均响应时间
3.6.2.1 同构机群下MapReduce 的平均响应时间
3.6.2.2 异构机群下MapReduce 的平均响应时间
3.6.3 加速比
3.6.4 公平性
3.7 对实验结果的分析
3.8 本章小结
第四章 对HADOOP 调度算法的改进优化
4.1 HADOOP 中调度程序的研究
4.1.1 推测执行任务(Speculative Executing Task)
4.1.2 Hadoop 中的推测执行
4.1.3 Hadoop 调度程序中的几点假设
4.1.4 异构性使得Hadoop 中的假设失效
4.1.4.1 机群的异构性
4.1.4.2 异构行推翻Hadoop 的其他假设
4.2 HADOOP 中与任务调度有关的类
4.2.1 Job 创建过程
4.2.2 Job 初始化过程
4.2.3 Task 执行过程
4.3 基于优先级加权的滑动窗口调度算法
4.3.1 权重的计算方法及任务分配策略
4.3.1.1 权重的计算方法
4.3.1.2 一个轮转周期内的任务分配策略
4.3.2 自适应调整滑动窗口的大小
4.3.2.1 调整滑动窗口大小的基本思想和流程
4.3.2.2 滑动窗口调整算法
4.3.3 更效率的推测执行
4.3.3.1 掉队者判定策略
4.3.3.2 慢节点判定策略
4.3.3.3 推测执行的实现
4.3.4 PWSW 算法较Hadoop 调度算法的优势
4.3.5 本章小结
第五章 实验及结果分析
5.1 实验平台选择及配置
5.2 实验结果及分析
5.3 实验结果分析
5.4 本章小结
第六章 总结和展望
致谢
参考文献
硕士期间经历及取得的成果
【参考文献】:
期刊论文
[1]Hadoop集群作业的调度算法[J]. 王峰. 程序员. 2009(12)
[2]一种改进的MapReduce并行编程模型[J]. 周锋,李旭伟. 科协论坛(下半月). 2009(02)
[3]云计算中的存储[J]. 冯大辉. 程序员. 2008(11)
[4]MapReduce模型的调度及容错机制研究[J]. 孙广中,肖锋,熊曦. 微电子学与计算机. 2007(09)
本文编号:3136505
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景
1.2 本文的工作
1.3 本文的结构
1.4 本章小结
第二章 相关技术和系统平台研究
2.1 云计算概述
2.1.1 云计算的基本概念
2.1.2 云计算模型
2.1.3 云计算的特性和应用
2.1.3.1 云计算的特性
2.1.3.2 云计算的应用
2.2 并行计算概述
2.2.1 并行计算的基本概念
2.2.2 并行计算中并行机模式
2.2.3 并行计算模型
2.2.4 并行算法
2.3 MAPREDUCE 模型概述
2.3.1 MapReduce 的编程模型
2.3.2 MapReduce 的典型应用
2.3.3 MapReduce 模型的实现方法
2.3.3.1.G oogle 计算环境
2.3.3.2.M apReduce 实现框架
2.3.3.3.M apReduce 的任务颗粒度和并行
2.3.3.4.M apReduce 的容错考虑
2.3.4 Hadoop 中调度算法的研究
2.4 本章小结
第三章 MAPREDUCE 在HADOOP 中的性能评估及分析
3.1 HADOOP 平台的研究
3.1.1 主从式的HDFS
3.1.2 主从式计算系统MapReduce
3.2 MAPREDUCE 性能评估指标的设计
3.3 设计基准测试程序集
3.3.1 基准测试程序的设计
3.3.1.1 字数统计
3.3.1.2 网页级别
3.3.1.3 PennySort
3.3.2 基准测试程序集的衡量指标
3.4 实验平台的搭建
3.4.1 集群配置方案
3.4.2 Hadoop 的配置与安装
3.4.2.1 配置ssh 和JDK
3.4.2.2 Hadoop 的安装配置
3.5 实验方案设计
3.5.1 数据结构的设计
3.5.2 对统计信息进行分析
3.6 实验结果及分析
3.6.1 任务独立响应时间与任务总响应时间
3.6.2 平均响应时间
3.6.2.1 同构机群下MapReduce 的平均响应时间
3.6.2.2 异构机群下MapReduce 的平均响应时间
3.6.3 加速比
3.6.4 公平性
3.7 对实验结果的分析
3.8 本章小结
第四章 对HADOOP 调度算法的改进优化
4.1 HADOOP 中调度程序的研究
4.1.1 推测执行任务(Speculative Executing Task)
4.1.2 Hadoop 中的推测执行
4.1.3 Hadoop 调度程序中的几点假设
4.1.4 异构性使得Hadoop 中的假设失效
4.1.4.1 机群的异构性
4.1.4.2 异构行推翻Hadoop 的其他假设
4.2 HADOOP 中与任务调度有关的类
4.2.1 Job 创建过程
4.2.2 Job 初始化过程
4.2.3 Task 执行过程
4.3 基于优先级加权的滑动窗口调度算法
4.3.1 权重的计算方法及任务分配策略
4.3.1.1 权重的计算方法
4.3.1.2 一个轮转周期内的任务分配策略
4.3.2 自适应调整滑动窗口的大小
4.3.2.1 调整滑动窗口大小的基本思想和流程
4.3.2.2 滑动窗口调整算法
4.3.3 更效率的推测执行
4.3.3.1 掉队者判定策略
4.3.3.2 慢节点判定策略
4.3.3.3 推测执行的实现
4.3.4 PWSW 算法较Hadoop 调度算法的优势
4.3.5 本章小结
第五章 实验及结果分析
5.1 实验平台选择及配置
5.2 实验结果及分析
5.3 实验结果分析
5.4 本章小结
第六章 总结和展望
致谢
参考文献
硕士期间经历及取得的成果
【参考文献】:
期刊论文
[1]Hadoop集群作业的调度算法[J]. 王峰. 程序员. 2009(12)
[2]一种改进的MapReduce并行编程模型[J]. 周锋,李旭伟. 科协论坛(下半月). 2009(02)
[3]云计算中的存储[J]. 冯大辉. 程序员. 2008(11)
[4]MapReduce模型的调度及容错机制研究[J]. 孙广中,肖锋,熊曦. 微电子学与计算机. 2007(09)
本文编号:3136505
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3136505.html