基于云计算环境的Web结构挖掘算法研究
发布时间:2017-07-04 15:24
本文关键词:基于云计算环境的Web结构挖掘算法研究
更多相关文章: 云计算 Hadoop 最小分块 PageRank Web结构挖掘
【摘要】:随着网络的快速发展,人们愈来愈频繁地在互联网上发布和获取信息,Web页已经成为主要的信息源。信息量在不断增大的同时亦带来了数据分析和挖掘过程中的各种挑战。Web结构挖掘技术通过研究Web页面之间的链接关系可发现Web中隐藏的潜在信息,而随着信息量的不断增大,如何提高Web结构挖掘技术的性能已成为广泛研究的课题。云计算技术提供了一种解决方案,通过构建集群获取强大的计算和存储能力。集群可以部署在普通的廉价计算机上,通过并行处理可实现高性能计算,因此在云计算环境下能很好地实行Web结构挖掘。本文概述了云计算相关知识,以及Web挖掘和在此基础上发展而来的一个特殊应用——Web结构挖掘;介绍了Web结构挖掘中的经典算法—PageRank;详细说明了开源且被普遍应用的云计算平台—Hadoop。在这些基础上,主要完成了以下工作:(1)分析实现PageRank并行计算的内积法、外积法和矩阵分块法。研究如何通过Hadoop云计算环境、MapReduce框架和传统矩阵分块实现PageRank并行算法。(2)利用Gauss-Seidel迭代法可以减少迭代次数的优势,将PageRank算法中原本的幂迭代法替换成Gauss-Seidel迭代法,以有效地提高PageRank的计算效率。(3)针对传统矩阵分块中分块规则不易确定,分块后的计算较为繁琐的问题。提出结合MapReduce框架,基于最小分块原则实现PageRank算法的方法。此方法按照每一个网页计算PR值时所需的有效的元素进行分块存储,计算过程中减少了I/O传输消耗,从而提高了计算效率。(4)搭建Hadoop平台,完成不同规模的网页链接数据集的比较实验。实验结果表明在相同的并行环境下改进的矩阵分块PageRank实现方法较传统方法在计算效率上有一定的优越性。
【关键词】:云计算 Hadoop 最小分块 PageRank Web结构挖掘
【学位授予单位】:安徽工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP311.13
【目录】:
- 摘要5-7
- ABSTRACT7-13
- 第1章 绪论13-21
- 1.1 引言13-16
- 1.2 国内外研究现状16-19
- 1.3 本文的主要研究内容19
- 1.4 本文的组织结构19-21
- 第2章 相关技术研究21-29
- 2.1 云计算21-22
- 2.1.1 云计算产生背景21
- 2.1.2 云计算概念21
- 2.1.3 云计算关键技术21-22
- 2.2 Web挖掘22-23
- 2.2.1 Web挖掘特点22-23
- 2.2.2 Web挖掘分类23
- 2.3 Web结构挖掘23-25
- 2.3.1 Web图概念24-25
- 2.3.2 链接关系表示25
- 2.4 PageRank算法25-28
- 2.4.1 算法思想25-27
- 2.4.2 算法优缺点27-28
- 2.5 本章小节28-29
- 第3章 Hadoop云计算平台分析29-36
- 3.1 概述29-32
- 3.1.1 Hadoop概述29
- 3.1.2 HDFS特点和体系结构29-30
- 3.1.3 HDFS数据管理30-31
- 3.1.4 MapReduce介绍31-32
- 3.2 Hadoop下的MapReduce32-35
- 3.2.1 工作流程33
- 3.2.2 调度策略33-35
- 3.2.3 错误处理机制35
- 3.3 本章小节35-36
- 第4章 云计算环境下PageRank算法实现36-54
- 4.1 PageRank算法并行实现36-45
- 4.1.1 矩阵分块36-38
- 4.1.2 矩阵存储结构38
- 4.1.3 PageRank算法内积法并行实现38-40
- 4.1.4 PageRank算法外积法并行实现40-42
- 4.1.5 PageRank算法矩阵分块法并行实现42-44
- 4.1.6 并行实现中存在的问题44-45
- 4.2 PageRank算法Gauss-Seidel迭代实现45-47
- 4.2.1 Jacobi迭代法45
- 4.2.2 Gauss-Seidel迭代法45-46
- 4.2.3 PageRank算法Gauss-Seidel迭代实验46-47
- 4.2.4 算法存在的问题47
- 4.3 利用最小分块方法并行实现PageRank算法47-53
- 4.3.1 最小分块原理47-48
- 4.3.2 数据准备48-50
- 4.3.3 实现过程50-52
- 4.3.4 复杂度分析52
- 4.3.5 算法比较52-53
- 4.4 本章小节53-54
- 第5章 实验与结果分析54-63
- 5.1 Hadoop平台搭建54-57
- 5.1.1 角色和运行方式54
- 5.1.2 实验环境54
- 5.1.3 Hadoop环境搭建54-57
- 5.2 数据集准备57-58
- 5.3 基于MapReduce的并行实现58-60
- 5.3.1 插件安装58
- 5.3.2 基于最小分块的PageRank算法开发58-60
- 5.4 结果分析60-62
- 5.5 本章小结62-63
- 第6章 总结与展望63-65
- 6.1 论文总结63
- 6.2 研究展望63-65
- 参考文献65-68
- 攻读学位期间发表的学术论文目录68-69
- 致谢69
【参考文献】
中国期刊全文数据库 前2条
1 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
2 杨长春;俞克非;叶施仁;严水歌;丁虹;杨晶;;一种新的中文微博社区博主影响力的评估方法[J];计算机工程与应用;2012年25期
,本文编号:518333
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/518333.html