Web数据挖掘中PageRank算法的研究与改进
发布时间:2017-09-21 15:23
本文关键词:Web数据挖掘中PageRank算法的研究与改进
更多相关文章: Web数据挖掘 结构挖掘 PageRank算法 主题漂移
【摘要】:随着互联网技术的发展,广大用户获取信息的途径越来越多、也越来越方便,与此同时,面对庞大而繁杂的信息,如何获取对自己有用的信息成为一个难题。所幸Web数据挖掘技术为解决Web上过量信息的问题提供了解决方法,其中的Web结构挖掘以超链接分析为基础,从链接结构中获取有用的信息,并重新组织结构,使内容逻辑结构更加合理。因此,Web数据挖掘逐渐成为如今的研究热点。 经典的超链接网页评估算法PageRank将“每个链接代表一个网页作者对所指向的网页的一种独立的认可”作为算法的前提条件。本文通过实验编程实现了PageRank算法迭代收敛的整个过程,并结合实例重点讨论了PageRank评估网页质量的有效性,认真分析了Fricke以万维网上咨询问答为样本进行研究的不足,提出了自己的优化方法。针对网页质量的评估通常带有个人色彩,还制定了网页信息质量的评估标准,来限制参评人员的主观臆愿,增加评估的客观性。最后,通过实验证明本文提出的PageRank优化方法用来评估网页质量的有效性。 优质的搜索引擎算法应该将用户最需要的主题相关尽可能地排序靠前。传统PageRank算法存在的主题漂移影响搜索效果的问题,在分析了大量网页排序算法的基础上,本文中提出了基于主题链接相似度的PageRank改进算法(TLSPR),通过链接关系表示的向量的余弦相似度描述网页之间的主题相关性,避免了其它改进算法额外文本信息的负担。仿真实验结果表明,TLSPR算法在未增加额外空间的同时,也未增加算法时间复杂度,能够将用户满意的网页安排在搜索结果的前面,有效提高了搜索效果,从而避免了主题漂移问题的产生。
【关键词】:Web数据挖掘 结构挖掘 PageRank算法 主题漂移
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-7
- 目录7-9
- 第1章 绪论9-15
- 1.1 搜索引擎发展简介9-10
- 1.2 研究背景10-11
- 1.3 研究意义11-12
- 1.4 国内外研究现状12-13
- 1.5 本文组织结构13-15
- 第2章 WEB数据挖掘15-26
- 2.1 Web数据挖掘概述15-19
- 2.1.1 Web数据挖掘的定义16-17
- 2.1.2 Web数据挖掘的特点17-18
- 2.1.3 Web数据挖掘的流程18-19
- 2.2 Web数据挖掘的分类19-25
- 2.2.1 Web内容挖掘21-22
- 2.2.2 Web结构挖掘22-24
- 2.2.3 Web使用挖掘24-25
- 2.3 小结25-26
- 第3章 PAGERANK算法的研究与分析26-37
- 3.1 PageRank算法概述26-27
- 3.2 PageRank算法解析27-29
- 3.2.1 PageRank假设27-28
- 3.2.2 PageRank算法原理28-29
- 3.3 PageRank算法实现29-31
- 3.4 PageRank评估网页质量有效性研究31-36
- 3.4.1 PageRank评估网页质量介绍31
- 3.4.2 PageRank评估网页质量优化31-32
- 3.4.3 评估网页质量的原则32-33
- 3.4.4 PageRank评估网页质量有效性实验33-35
- 3.4.5 PageRank评估网页质量有效性结论分析35-36
- 3.5 小结36-37
- 第4章 基于主题链接相似度PAGERANK改进算法37-50
- 4.1 链接分析算法37-41
- 4.1.1 PageRank算法的优缺点37-38
- 4.1.2 HITS算法的优缺点38-40
- 4.1.3 链接分析算法分析40-41
- 4.2 相关PageRank改进算法分析41-44
- 4.2.1 TIPR算法41-43
- 4.2.2 MIPR算法43-44
- 4.3 基于主题链接相似度PageRank改进算法44-46
- 4.3.1 网页链接向量44-45
- 4.3.2 TLSPR算法45-46
- 4.4 实验对比分析46-49
- 4.5 小结49-50
- 第5章 总结与展望50-52
- 5.1 总结50
- 5.2 今后的工作展望50-52
- 参考文献52-56
- 致谢56
【参考文献】
中国期刊全文数据库 前10条
1 石晶,龚震宇,裘杭萍;基于Web使用挖掘的个性化服务系统[J];电子科技大学学报;2002年04期
2 李瑞;郭小溪;;PageRank算法权威值均分的改进[J];大连交通大学学报;2013年02期
3 马海波;杨楠;于新兴;;用户差别化和主题敏感的PageRank算法[J];大连交通大学学报;2013年04期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
6 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
7 王家卓;刘奕群;马少平;张敏;;基于用户行为的竞价广告效果分析[J];计算机研究与发展;2011年01期
8 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
9 焦金涛;;基于PageRank的Web挖掘改进算法[J];计算机工程;2009年15期
10 葛玲;蒋宗礼;;基于共现词查询的主题爬虫研究[J];计算机工程;2010年08期
,本文编号:895338
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/895338.html