基于改进PageRank算法的网页排序问题研究
本文关键词:基于改进PageRank算法的网页排序问题研究,,由笔耕文化传播整理发布。
【摘要】:现今互联网信息技术迅猛发展,似乎在一夜之间,大数据(Big Data)变成一个最流行的词汇。用户在利用搜索引擎便捷获取各类信息的同时,也面临着如何从海量数据中剔除那些影响信息检索效率及准确度的冗余信息的问题。在一般情况下,鉴于用户只关注返回目标网页的前几页,因此对搜索结果进行网页排序,改善搜索质量,提高用户满意度显得尤为重要。对于网页,除了文本信息,页面间的链接结构也是人们获取有用信息的重要途径。经典的网页排序算法---Page Rank正是使用网页间的链接结构对各网页的权重值进行迭代计算,很大程度上提高了对网页权重计算的精准度。但是Page Rank算法仍存在许多待研究及待突破的不足,开展相关研究具有重要应用价值。本文首先阐述了基于Map Reduce的Page Rank算法的研究背景和意义,然后对该算法的国内外研究现状进行了分析总结。在此基础上,着重分析出算法中影响性能和准确度的关键因素,即迭代次数和“主题漂移”,进而提出了改进算法:子图估算Page Rank网页排序算法及个性化智能推荐的权值分配方法。然后对所改进算法进行理论分析,包括算法的迭代次数,时间复杂度和准确性。最后,在Map Reduce编程模型上实现Page Rank算法及其改进算法,并通过实验数据对比分析证明算法的合理性、有效性。与传统算法相比,改进后的算法时间复杂度低,迭代次数少,准确度较高。
【关键词】:网页排序 Map Reduce Page Rank算法 子图 用户习性爱好
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 课题研究的背景与意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 PageRank算法研究现状11-12
- 1.2.2 MapReduce方法研究现状12-13
- 1.3 课题的研究内容13-15
- 第2章 相关理论与技术15-22
- 2.1 PageRank算法介绍15-17
- 2.1.1 PageRank算法的基本概念15-17
- 2.1.2 PageRank算法的优缺点17
- 2.2 分布式计算17-19
- 2.2.1 分布式计算思想17-18
- 2.2.2 MapReduce并行编程模型18-19
- 2.2.3 Hadoop分布式计算框架19
- 2.3 基于MapReduce的PageRank算法19-21
- 2.3.1 基本原理及实现19-21
- 2.3.2 算法的不足21
- 2.4 本章小结21-22
- 第3章 子图估算PageRank算法22-30
- 3.1 topK-Rank算法详述22-26
- 3.1.1 估值的上下限22-25
- 3.1.2 子拓扑图25-26
- 3.2 topK-Rank算法的MapReduce实现26-28
- 3.2.1 算法数据准备26
- 3.2.2 算法执行过程26-27
- 3.2.3 topK-Rank算法伪代码设计27-28
- 3.3 算法的正确性28
- 3.4 算法的时间复杂度28-29
- 3.5 本章小结29-30
- 第4章 个性化智能推荐的权值分配算法30-39
- 4.1 算法提出的必要性30
- 4.2 新算法思想30-31
- 4.3 新算法详述31-36
- 4.3.1 文档表示31
- 4.3.2 关键词位置及长度加权的改进式TF-IDF研究31-33
- 4.3.3 文本间相似度计算33-34
- 4.3.4 用户习性爱好提取及数据化34-36
- 4.4 新算法实现流程36-37
- 4.5 算法可行性分析37-38
- 4.6 本章小结38-39
- 第5章 实验与分析39-47
- 5.1 实验数据验证子图估算PageRank算法39-42
- 5.1.1 实验平台与数据39
- 5.1.2 实验及结果分析39-42
- 5.2 个性化智能推荐算法的实验数据验证42-45
- 5.2.1 验证过程42-45
- 5.2.2 实验结果分析45
- 5.3 本章小结45-47
- 结论47-48
- 参考文献48-53
- 攻读硕士学位期间所发表的学术论文53-54
- 致谢54
【参考文献】
中国期刊全文数据库 前10条
1 李雪媛;季铁;王巍;;基于反馈作用的用户习惯培养方法研究[J];包装工程;2015年24期
2 曹姗姗;王冲;;基于网页链接与用户反馈的PageRank算法改进研究[J];计算机科学;2014年12期
3 平宇;向阳;张波;黄寅飞;;基于MapReduce的并行PageRank算法实现[J];计算机工程;2014年02期
4 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
5 马海波;杨楠;于新兴;;用户差别化和主题敏感的PageRank算法[J];大连交通大学学报;2013年04期
6 戴上平;郑波荣;;基于Tf-Idf和网页链接的PageRank改进算法[J];计算机应用与软件;2013年05期
7 王玉凤;梁毅;金翊;李光瑞;;Hadoop平台数据访问监控机制研究[J];计算机工程与应用;2014年22期
8 饶君;吴斌;东昱晓;;MapReduce环境下的并行复杂网络链路预测[J];软件学报;2012年12期
9 全巧梅;;云计算环境下WEB数据挖掘的研究[J];信息技术与信息化;2012年05期
10 方少卿;周剑;张明新;;基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J];计算机应用研究;2013年02期
中国硕士学位论文全文数据库 前3条
1 张梅芳;基于改进PageRank算法和用户兴趣的个性化搜索研究[D];河北工业大学;2014年
2 吴崇正;基于MapReduce的分布式搜索引擎研究[D];兰州理工大学;2013年
3 张超;基于MapReduce的分布式搜索引擎研究与实现[D];太原理工大学;2012年
本文关键词:基于改进PageRank算法的网页排序问题研究,由笔耕文化传播整理发布。
本文编号:301998
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/301998.html