基于PageRank算法的Web数据挖掘的研究
本文选题:PageRank算法 + 网页相似度 ; 参考:《天津理工大学》2017年硕士论文
【摘要】:面对互联网中庞大的数据,怎样获取所需要的信息形成了研究所面对的一个难题。而Web数据挖掘这门学科的泛起为这个难题提出了解决方法。Web数据挖掘由Web内容挖掘、Web结构挖掘和Web使用挖掘构成。Web结构挖掘中主要有PageRank算法和HITS算法。由于Page Rank算法相比于HITS算法的应用更为广泛,同时它的效率也优于HITS算法。所以本文通过对Web结构挖掘中的PageRank算法的特征进行学习,提出了改进的方法,本文主要的贡献如下:(1)针对PageRank算法存在的平均分配PR值的问题。本文提出基于网页相似度的改良方法。将网页之间的指向关系作为一种链接向量,通过这种链接向量来表示某个网页。通过链接向量来表示网页之间的相似度。以当前网页和入链网页的相似度的大小来传递PR值,代替了原来PageRank算法的平均传递值的方法。对PageRank算法和改良的方法进行实验对比,改良后的算法在查准率上有所提高。(2)针对PageRank算法存在的主题漂移问题。本文提出基于主题相关性的改良方法。此改进方法的基本原理是:对一个关键字进行检索时,若检索系统可以在检索结果的排名中依据网页和客户要求的相关性的大小来排名,这么我们就认为这个检索系统的精确度是可以的。本文利用已经发展成熟的概率检索模型BM25F模型,利用此模型来获得网页与查询关键字之间的相关性。对PageRank算法,Top-Sensitive PageRank算法和改良后的算法进行实验对比,改良后的算法在网页质量的上有较大提升。(3)针对PageRank算法存在的偏重旧网页的问题。本文提出基于网页更新率的改良方法。传统的PageRank算法下只是考虑了网页之间的链接结构没有将时间因素作为一个评价标准,这样新的网页由于存在的时间短被其他网页所引用的概率就会大大降低,这对新网页是不利的。此改进方法是基于网页的变化是泊松过程,本文通过泊松分布的数据模型来计算网页的更新率。对PageRank算法和改良后的算法进行实验对比,改良后的算法对新网页的排名有所提升。
[Abstract]:In the face of the huge data in the Internet, how to obtain the needed information has become a difficult problem. For this problem, the Web data mining is composed of PageRank algorithm and HITS algorithm, which is composed of Web content mining, web structure mining and Web usage mining. Page Rank algorithm is more widely used than HITS algorithm, and its efficiency is better than that of HITS algorithm. Therefore, by learning the features of PageRank algorithm in Web structure mining, an improved method is proposed. The main contribution of this paper is as follows: 1) aiming at the problem of average allocation of PR value in PageRank algorithm. This paper proposes an improved method based on web similarity. The relationship between web pages is used as a link vector to represent a web page. The similarity between web pages is expressed by link vectors. The PR value is transferred by the similarity between the current web page and the linked web page, instead of the average transfer value of the original PageRank algorithm. By comparing the PageRank algorithm with the improved method, the improved algorithm can improve the precision. (2) aiming at the topic drift problem of the PageRank algorithm. This paper proposes an improved method based on thematic correlation. The basic principle of this improved method is that when a keyword is retrieved, if the retrieval system can rank the search results according to the size of the correlation between the web page and the customer's requirements, So we think the accuracy of the retrieval system is possible. This paper uses the developed probabilistic retrieval model, BM25F model, to obtain the correlation between web pages and query keywords. The PageRank algorithm Top-Sensitive PageRank algorithm is compared with the improved algorithm. The improved algorithm has a great improvement in the quality of the web page. This paper proposes an improved method based on the update rate of web pages. The traditional PageRank algorithm only considers the link structure between web pages and does not take the time factor as an evaluation criterion, so the probability of the new web page being quoted by other web pages will be greatly reduced because of the short time of existence. This is bad for the new web page. This improved method is based on the Poisson process of web page change. In this paper, the update rate of web page is calculated by Poisson distribution data model. Compared the PageRank algorithm with the improved algorithm, the improved algorithm improved the ranking of new web pages.
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP311.13
【相似文献】
相关期刊论文 前10条
1 李村合;吕克强;;一种改进PageRank的新方法[J];计算机系统应用;2008年03期
2 钟灵;章云;曾启杰;罗文良;;能见度与缺失分析的改进PageRank算法[J];微计算机信息;2009年15期
3 LIU Gui-mei;;An adaptive improvement on PageRank algorithm[J];Applied Mathematics:A Journal of Chinese Universities(Series B);2013年01期
4 史铭茗;;加权PageRank算法研究综述[J];软件导刊;2013年02期
5 刘悦;程学旗;李国杰;;提高PageRank算法效率的方法初探[J];计算机科学;2002年06期
6 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
7 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
8 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
9 杨彬;康慕宁;;基于概念的权重PageRank改进算法[J];情报杂志;2006年11期
10 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期
相关会议论文 前10条
1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年
2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全国复杂系统研究论坛论文集(一)[C];2005年
相关硕士学位论文 前10条
1 何逍;复杂网络的可视化显示[D];电子科技大学;2015年
2 李金圻;基于Hadoop的微博舆情分析[D];北京邮电大学;2015年
3 孙乐天;基于PageRank和对象关系的聚类算法研究[D];兰州大学;2016年
4 刘卓然;基于改进PageRank算法的舆情引导技术研究[D];昆明理工大学;2016年
5 王文文;深度重启的Arnoldi加速的PageRank方法[D];上海大学;2016年
6 孟德鑫;基于MapReduce计算模型的PageRank算法的优化与实现[D];南京邮电大学;2016年
7 吴恒超;基于PageRank算法的二分网络社区划分[D];沈阳航空航天大学;2016年
8 杨硕;PageRank算法在社区划分中的应用研究[D];沈阳航空航天大学;2016年
9 郑普亨;基于PageRank算法的Web数据挖掘的研究[D];天津理工大学;2017年
10 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
,本文编号:1982904
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1982904.html