基于Hadoop平台的Map-Reduce应用研究
发布时间:2022-10-29 12:08
随着互联网和3G的迅猛发展,其数据具有海量、多样、异构、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。如何高效地从这些海量数据中挖掘有效信息已成为一个重要的研究内容。 在分析常见的分布式系统模型以及并行计算等相关技术的基础上,结合MapReduce编程模型和Hadoop平台的集群技术,提出了基于Hadoop集群平台的MapReduce编程模型的并行编程框架,该编程框架的特点是借助开源技术和当前流行的分布式技术满足算法并行执行的需求,用该框架改进Canopy-Kmeans算法,使Canopy-Kmeans算法执行效率得到提高。同时该框架适用于大量其它算法。 Canopy-Kmeans算法对传统Kmeans算法的改进体现在两个方面:利用Canopy算法选出初始的K个聚类中心有利于消除孤立点,提高聚类的准确性;再次就是将数据进行Canopy有覆盖划分,在计算点离哪个聚类中心最近时不必计算其到所有聚类中心的距离,只要计算和它在同一个Canopy下的聚类中心的最短距离,大大提高效率。 Hadoop平台具有成本低,易维护,可扩展,开发应用程序简单等优...
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
1 引论
1.1 研究背景及研究意义
1.2 云计算概述
1.2.1 云计算的原理
1.2.2 云计算的形式
1.3 本文的主要工作
2 分布式相关技术介绍
2.1 分布式系统模型简介
2.1.1 IBM Blue-Cloud
2.1.2 Google File System
2.1.3 Hadoop of Apache
2.1.4 Google AppEngine
2.2 并行计算概述
2.2.1 并行编程模型
2.2.2 并行计算主要体系结构
2.2.3 并行算法举例
2.3 分布式系统关键技术
2.3.1 MapReduce 编程模型
2.3.2 分布式存储系统
2.4 本章小结
3 Hadoop 的架构分析
3.1 Hadoop 核心组件
3.1.1 Hadoop Mapreduce
3.1.2 Hadoop HDFS 文件系统
3.2 HDFS-Hadoop 分布式文件系统
3.2.1 目标及假设
3.2.2 文件系统命名空间
3.2.3 持久保存文件系统元数据
3.2.4 名字节点和数据节点
3.2.5 数据复制
3.2.6 通信协议
3.2.7 数据健壮性
3.2.8 数据组织
3.2.9 空间回收利用
3.3 基于 Hadoop 的 MapReduce 并行编程模型
3.3.1 MapReduce 执行流程
3.3.2 Hadoop MapReduce
3.4 本章小结
4 基于 MapReduce 的 Canopy-Kmeans 多核机群聚类算法
4.1 基于 MapReduce 的并行编程架构
4.2 canopy 聚类算法
4.2.1 Canopy 聚类应用背景
4.2.2 Canopy 聚类算法
4.3 K-means 聚类算法
4.3.1 K-means 算法描述
4.4 基于 MapReduce 的 CanopyKmeans 聚类算法
4.4.1 算法思想
4.4.2 算法流程
4.4.3 算法复杂性分析
4.5 本章小结
5 算法实现及评测
5.1 集群环境平台的构建
5.1.1 硬件环境
5.1.2 软件环境
5.1.3 Hadoop 平台的安装部署
5.2 Canopy-Kmeans 聚类算法实现及试验结果分析
5.2.1 Canopy-Kmeans 算法的Hadoop 集群执行
5.2.2 试验结果分析
5.3 本章小结
6 总结与展望
6.1 总结
6.2 今后的研究改进方向
参考文献
作者简历
学位论文数据集
详细摘要
【参考文献】:
期刊论文
[1]多核处理器大规模并行系统中的任务分配问题及算法[J]. 刘轶,张昕,李鹤,钱德沛. 小型微型计算机系统. 2008(05)
[2]MapReduce模型的调度及容错机制研究[J]. 孙广中,肖锋,熊曦. 微电子学与计算机. 2007(09)
[3]基于聚类模式的多数据源记录匹配算法[J]. 唐懿芳,钟达夫,严小卫. 小型微型计算机系统. 2005(09)
[4]基于聚类模式的数据清洗技术[J]. 唐懿芳,钟达夫,严小卫. 计算机应用. 2004(05)
硕士论文
[1]基于MapReduce模型的并行计算平台的设计与实现[D]. 万至臻.浙江大学 2008
[2]基于Hadoop的海量数据处理模型研究和应用[D]. 朱珠.北京邮电大学 2008
本文编号:3697659
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
1 引论
1.1 研究背景及研究意义
1.2 云计算概述
1.2.1 云计算的原理
1.2.2 云计算的形式
1.3 本文的主要工作
2 分布式相关技术介绍
2.1 分布式系统模型简介
2.1.1 IBM Blue-Cloud
2.1.2 Google File System
2.1.3 Hadoop of Apache
2.1.4 Google AppEngine
2.2 并行计算概述
2.2.1 并行编程模型
2.2.2 并行计算主要体系结构
2.2.3 并行算法举例
2.3 分布式系统关键技术
2.3.1 MapReduce 编程模型
2.3.2 分布式存储系统
2.4 本章小结
3 Hadoop 的架构分析
3.1 Hadoop 核心组件
3.1.1 Hadoop Mapreduce
3.1.2 Hadoop HDFS 文件系统
3.2 HDFS-Hadoop 分布式文件系统
3.2.1 目标及假设
3.2.2 文件系统命名空间
3.2.3 持久保存文件系统元数据
3.2.4 名字节点和数据节点
3.2.5 数据复制
3.2.6 通信协议
3.2.7 数据健壮性
3.2.8 数据组织
3.2.9 空间回收利用
3.3 基于 Hadoop 的 MapReduce 并行编程模型
3.3.1 MapReduce 执行流程
3.3.2 Hadoop MapReduce
3.4 本章小结
4 基于 MapReduce 的 Canopy-Kmeans 多核机群聚类算法
4.1 基于 MapReduce 的并行编程架构
4.2 canopy 聚类算法
4.2.1 Canopy 聚类应用背景
4.2.2 Canopy 聚类算法
4.3 K-means 聚类算法
4.3.1 K-means 算法描述
4.4 基于 MapReduce 的 CanopyKmeans 聚类算法
4.4.1 算法思想
4.4.2 算法流程
4.4.3 算法复杂性分析
4.5 本章小结
5 算法实现及评测
5.1 集群环境平台的构建
5.1.1 硬件环境
5.1.2 软件环境
5.1.3 Hadoop 平台的安装部署
5.2 Canopy-Kmeans 聚类算法实现及试验结果分析
5.2.1 Canopy-Kmeans 算法的Hadoop 集群执行
5.2.2 试验结果分析
5.3 本章小结
6 总结与展望
6.1 总结
6.2 今后的研究改进方向
参考文献
作者简历
学位论文数据集
详细摘要
【参考文献】:
期刊论文
[1]多核处理器大规模并行系统中的任务分配问题及算法[J]. 刘轶,张昕,李鹤,钱德沛. 小型微型计算机系统. 2008(05)
[2]MapReduce模型的调度及容错机制研究[J]. 孙广中,肖锋,熊曦. 微电子学与计算机. 2007(09)
[3]基于聚类模式的多数据源记录匹配算法[J]. 唐懿芳,钟达夫,严小卫. 小型微型计算机系统. 2005(09)
[4]基于聚类模式的数据清洗技术[J]. 唐懿芳,钟达夫,严小卫. 计算机应用. 2004(05)
硕士论文
[1]基于MapReduce模型的并行计算平台的设计与实现[D]. 万至臻.浙江大学 2008
[2]基于Hadoop的海量数据处理模型研究和应用[D]. 朱珠.北京邮电大学 2008
本文编号:3697659
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3697659.html