基于Hadoop的云平台在海量Web数据分析中的应用研究
发布时间:2022-01-10 05:49
随着社会的进步和Internet技术的发展,网络数据规模日渐庞大,Web已成为全球最大的数据仓库,无论是企业还是个人都面临如何有效管理海量Web数据的难题。传统数据处理方法存在成本过高、可靠性较低、编写并行处理程序困难等诸多缺点。基于开放源代码的Hadoop并行处理框架能够有效、可靠、智能的管理海量Web数据。为了提高传统单一节点在海量Web数据分析和挖掘中存在时间和空间效率,通过分析Hadoop云计算开源平台技术的国内外研究现状和发展趋势,基于Hadoop开源框架分布式文件系统(HDFS)和Map/Reduce编程模型,研究了海量Web日志性能指标和一种Web挖掘算法的Map/Reduce化过程,设计了海量Web数据分析系统架构,搭建了Hadoop开发平台,实现了一个分布式的海量Web数据分析系统的开发。该系统集成了数据和应用,并通过Hadoop的应用程序编程接口(API)连接到Eclipse中,利用Maven管理和构建Hadoop项目,实现任务之间的共享操作。通过在虚拟机搭建了4个节点的Hadoop集群环境系统测试平台,测试分析了该系统和传统系统的Shell脚本处理,统计分析了Ha...
【文章来源】:西安科技大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题的背景及研究的意义
1.2 国内外研究现状
1.2.1 云计算
1.2.2 Hadoop
1.2.3 海量数据分析
1.3 研究的目的和主要内容
1.3.1 研究目的及意义
1.3.2 研究的主要内容
1.4 论文组织结构
2 相关理论与关键技术
2.1 分布式文件系统(HDFS)
2.2 Map/Reduce 计算框架
2.2.1 Map/Reduce 编程模型
2.2.2 Shuffle 过程
2.3 Hadoop 与其它数据处理模型的比较
2.3.1 Hadoop 与关系型数据库的比较
2.3.2 Hadoop 与网格计算比较
2.4 本章小结
3 海量 Web 数据分析系统分析与设计
3.1 需求分析
3.1.1 背景分析
3.1.2 常见日志数据格式及 KPI 功能需求分析
3.1.3 Web 数据挖掘分析
3.2 数据集成方案选型
3.3 系统的架构设计
3.4 Map-Reduce 并行算法模型设计
3.4.1 KPI 指标的 Map/Reduce 化模型
3.4.2 协同过滤算法的 Map/Reduce 化模型
3.5 本章小结
4 海量 Web 数据分析系统的实现与测试
4.1 开发环境介绍
4.2 基于 Hadoop 的云平台搭建
4.2.1 总体设计
4.2.2 实际布局
4.2.3 分布式数据管理的实施
4.2.4 运行测试
4.3 用 Maven 构建 hadoop 项目环境
4.4 MapReduce 程序开发
4.4.1 KPI 指标分析程序开发
4.4.2 协同过滤算法程序开发
4.5 系统测试与结果分析
4.5.1 KPI 指标分析测试与结果分析
4.5.2 基于物品的协同过滤算法并行程序测试
4.5.3 日志数据处理性能对比测试
4.6 本章小结
5 总结与展望
5.1 本文总结
5.2 进一步展望
致谢
图表清单
参考文献
附录
【参考文献】:
期刊论文
[1]我国云计算发展研究综述[J]. 龚强. 信息技术. 2013(07)
[2]一种大数据时代海量数据抽取的开发模型研究[J]. 罗恩韬,胡志刚,林华. 计算机应用研究. 2013(11)
[3]国外云计算发展现状综述[J]. 龚强. 信息技术. 2013(06)
[4]MapReduce并行编程模型研究综述[J]. 李建江,崔健,王聃,严林,黄义双. 电子学报. 2011(11)
[5]Maven在企业Java软件产品中的应用[J]. 李俊杰. 电脑知识与技术. 2011(07)
[6]基于Hadoop的移动学习模型研究[J]. 高宏卿,翟炎杰. 中国电化教育. 2011(01)
[7]Hadoop分布式文件系统的模型分析[J]. 王峰,雷葆华. 电信科学. 2010(12)
[8]基于Hadoop及关系型数据库的海量数据分析研究[J]. 程莹,张云勇,徐雷,房秉毅. 电信科学. 2010(11)
博士论文
[1]并行计算普适编程模型及系统架构研究[D]. 金晶.北京邮电大学 2012
[2]云计算数据中心结构及其调度机制研究[D]. 刘晓茜.中国科学技术大学 2011
硕士论文
[1]Hadoop平台中作业调度算法分析与改进研究[D]. 杨倩茹.海南大学 2013
[2]基于Hadoop的分布式文件系统优化技术研究[D]. 张得震.兰州交通大学 2013
[3]基于Hadoop平台的海量数据处理应用[D]. 陈娜.吉林大学 2012
[4]基于Hadoop的大型网站海量数据的统计与应用[D]. 吴金虎.南京大学 2012
[5]协同过滤算法及其并行化研究[D]. 金龑.南京大学 2012
[6]基于Hadoop的云计算模型研究与应用[D]. 曹风兵.重庆大学 2011
[7]面向校园网日志分析的Web数据挖掘技术研究[D]. 尚蓉蓉.西安电子科技大学 2011
[8]基于粗糙集的网格海量数据挖掘若干关键技术研究[D]. 夏奇思.南京邮电大学 2011
[9]内容管理系统存储层的设计与实现[D]. 宾莉金.北京邮电大学 2011
[10]基于Hadoop平台的数据分析和应用[D]. 姜文.北京邮电大学 2011
本文编号:3580165
【文章来源】:西安科技大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题的背景及研究的意义
1.2 国内外研究现状
1.2.1 云计算
1.2.2 Hadoop
1.2.3 海量数据分析
1.3 研究的目的和主要内容
1.3.1 研究目的及意义
1.3.2 研究的主要内容
1.4 论文组织结构
2 相关理论与关键技术
2.1 分布式文件系统(HDFS)
2.2 Map/Reduce 计算框架
2.2.1 Map/Reduce 编程模型
2.2.2 Shuffle 过程
2.3 Hadoop 与其它数据处理模型的比较
2.3.1 Hadoop 与关系型数据库的比较
2.3.2 Hadoop 与网格计算比较
2.4 本章小结
3 海量 Web 数据分析系统分析与设计
3.1 需求分析
3.1.1 背景分析
3.1.2 常见日志数据格式及 KPI 功能需求分析
3.1.3 Web 数据挖掘分析
3.2 数据集成方案选型
3.3 系统的架构设计
3.4 Map-Reduce 并行算法模型设计
3.4.1 KPI 指标的 Map/Reduce 化模型
3.4.2 协同过滤算法的 Map/Reduce 化模型
3.5 本章小结
4 海量 Web 数据分析系统的实现与测试
4.1 开发环境介绍
4.2 基于 Hadoop 的云平台搭建
4.2.1 总体设计
4.2.2 实际布局
4.2.3 分布式数据管理的实施
4.2.4 运行测试
4.3 用 Maven 构建 hadoop 项目环境
4.4 MapReduce 程序开发
4.4.1 KPI 指标分析程序开发
4.4.2 协同过滤算法程序开发
4.5 系统测试与结果分析
4.5.1 KPI 指标分析测试与结果分析
4.5.2 基于物品的协同过滤算法并行程序测试
4.5.3 日志数据处理性能对比测试
4.6 本章小结
5 总结与展望
5.1 本文总结
5.2 进一步展望
致谢
图表清单
参考文献
附录
【参考文献】:
期刊论文
[1]我国云计算发展研究综述[J]. 龚强. 信息技术. 2013(07)
[2]一种大数据时代海量数据抽取的开发模型研究[J]. 罗恩韬,胡志刚,林华. 计算机应用研究. 2013(11)
[3]国外云计算发展现状综述[J]. 龚强. 信息技术. 2013(06)
[4]MapReduce并行编程模型研究综述[J]. 李建江,崔健,王聃,严林,黄义双. 电子学报. 2011(11)
[5]Maven在企业Java软件产品中的应用[J]. 李俊杰. 电脑知识与技术. 2011(07)
[6]基于Hadoop的移动学习模型研究[J]. 高宏卿,翟炎杰. 中国电化教育. 2011(01)
[7]Hadoop分布式文件系统的模型分析[J]. 王峰,雷葆华. 电信科学. 2010(12)
[8]基于Hadoop及关系型数据库的海量数据分析研究[J]. 程莹,张云勇,徐雷,房秉毅. 电信科学. 2010(11)
博士论文
[1]并行计算普适编程模型及系统架构研究[D]. 金晶.北京邮电大学 2012
[2]云计算数据中心结构及其调度机制研究[D]. 刘晓茜.中国科学技术大学 2011
硕士论文
[1]Hadoop平台中作业调度算法分析与改进研究[D]. 杨倩茹.海南大学 2013
[2]基于Hadoop的分布式文件系统优化技术研究[D]. 张得震.兰州交通大学 2013
[3]基于Hadoop平台的海量数据处理应用[D]. 陈娜.吉林大学 2012
[4]基于Hadoop的大型网站海量数据的统计与应用[D]. 吴金虎.南京大学 2012
[5]协同过滤算法及其并行化研究[D]. 金龑.南京大学 2012
[6]基于Hadoop的云计算模型研究与应用[D]. 曹风兵.重庆大学 2011
[7]面向校园网日志分析的Web数据挖掘技术研究[D]. 尚蓉蓉.西安电子科技大学 2011
[8]基于粗糙集的网格海量数据挖掘若干关键技术研究[D]. 夏奇思.南京邮电大学 2011
[9]内容管理系统存储层的设计与实现[D]. 宾莉金.北京邮电大学 2011
[10]基于Hadoop平台的数据分析和应用[D]. 姜文.北京邮电大学 2011
本文编号:3580165
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3580165.html