当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于MapReduce的Web链接结构分析算法研究

发布时间:2017-05-19 21:14

  本文关键词:基于MapReduce的Web链接结构分析算法研究,,由笔耕文化传播整理发布。


【摘要】:随着互联网信息技术的飞速发展,Web网页信息正在呈现指数级的增长趋势。面对如此巨大的Web信息资源库,搜索引擎已成为用户获取网络信息资源的重要工具。Web链接结构分析算法,作为网络搜索引擎的重要组成部分,用于通过分析Web页面间链接结构来对Web网页信息做潜在的重要性评估。然而,随着数据计算量的不断增加,传统集中式架构的Web链接结构分析算法不仅在计算和存储方面存在着瓶颈,且存在系统的稳定性和扩展性不高等问题。近年来,处理海量数据的Hadoop分布式平台,以其可靠性、高效性、高扩展性等优势,已成为学术界研究的热点。深入研究Web链接结构分析的经典算法PageRank、HITS,以及Hadoop、Map/Reduce等理论知识,将Web链接结构分析算法和Hadoop平台相结合,并做了如下工作: 1.在Hadoop平台上,对PageRank算法每次迭代都要多次访问HDFS, I/O的消耗大;每次MapReduce操作,在混合阶段和排序阶段处理Key的数量大,算法效率低等问题进行研究。并提出了基于块结构划分的方法,将网页之间的链接关系转换成网络块间的关系,大大减少了算法迭代过程中需要处理的Key的数据量,从而减少了Map和Reduce操作的调用次数,降低了I/O传输造成的开销,提高算法执行效率。 2.在Hadoop分布式平台上,对传统HITS算法矩阵存储链接结构以及规范化处理效率低问题进行研究,根据Hadoop平台特性,重新设计为基于MapReduce的HITS算法,改变结点信息的存储方式,突破传统HITS算法中Hub值和Authority值公共耦合的繁杂关系,并测试和分析了改进后的HITS算法。
【关键词】:Web链接结构分析 Hadoop分布式平台 MapReduce PageRank算法 HITS算法
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要7-8
  • Abstract8-10
  • 插图索引10-11
  • 附表索引11-12
  • 第1章 绪论12-17
  • 1.1 课题研究背景及意义12-13
  • 1.2 WEB链接结构分析国内外研究现状13-15
  • 1.3 课题研究的主要内容15
  • 1.4 论文的组织结构安排15-17
  • 第2章 HADOOP分布式框架技术及平台部署17-26
  • 2.1 分布式计算技术17-23
  • 2.1.1 Hadoop分布式平台简介17-18
  • 2.1.2 MapReduce编程模型18-19
  • 2.1.3 Hadoop分布式文件系统—HDFS19-21
  • 2.1.4 Hadoop的MapReduce工作流程21-23
  • 2.2 HADOOP平台部署23-25
  • 2.2.1 实验环境的安装与配置23-25
  • 2.3 本章小结25-26
  • 第3章 WEB链接结构分析相关理论26-35
  • 3.1 WEB链接结构理论基础26-28
  • 3.1.1 Web结构图研究26
  • 3.1.2 从图论方面认识Web链接结构26-28
  • 3.2 WEB链接结构分析算法—PAGERANK算法28-29
  • 3.2.1 PageRank算法28-29
  • 3.2.2 PageRank算法存在的问题29
  • 3.3 WEB链接结构分析算法—HITS算法29-34
  • 3.3.1 HITS算法基本思想29-30
  • 3.3.2 HITS算法的具体过程30-32
  • 3.3.3 HITS算法存在的问题32-34
  • 3.4 本章小结34-35
  • 第4章 PAGERANK算法的优化35-45
  • 4.1 PAGERANK算法优化方面的研究35-36
  • 4.2 PAGERANK算法优化计算流程36-42
  • 4.2.1 块结构划分36-38
  • 4.2.2 构划分PagRank算法38-42
  • 4.3 实验及其结果分析42-44
  • 4.3.1 实验数据集及相关参数设定42
  • 4.3.2 实验方案设计42
  • 4.3.3 结果分析42-44
  • 4.4 本章小结44-45
  • 第5章 改进的HITS算法45-56
  • 5.1 传统HITS算法规范化及矩阵存储问题45-46
  • 5.2 基于MAPREDUCE优化HITS算法的设计方案46-49
  • 5.3 改进的HITS算法—MAP函数设计49-51
  • 5.4 改进的HITS算法—REDUCE函数设计51-52
  • 5.5 实验方案及结果分析52-55
  • 5.5.1 实验方案一52-53
  • 5.5.2 实验方案二53-55
  • 5.6 本章小结55-56
  • 结论与展望56-57
  • 参考文献57-62
  • 致谢62-63
  • 附录A 攻读硕士学位期间所发表的论文63

【参考文献】

中国期刊全文数据库 前10条

1 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期

2 骆昊;曾华q

本文编号:379867


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/379867.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户21bab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com