当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Hadoop的PageRank算法的研究与改进

发布时间:2017-08-24 10:23

  本文关键词:基于Hadoop的PageRank算法的研究与改进


  更多相关文章: 计算机应用技术 嵌入式系统工程 Page Rank Map Reduce Hadoop


【摘要】:传统Page Rank算法单纯从网页链接结构进行分析而未考虑搜索主题漂移、侧重于旧网页以及忽略用户兴趣的问题。为提高搜索引擎检索效率,通过增加主题内容相关度、有效点击频率和时间反馈因子对算法进行改进。使用分布式计算框架Map Reduce实现改进算法并部署运行在Hadoop集群上。对实验数据进行对比分析,发现改进后的Page Rank算法在Nutch上的爬取索引效率提高7.209%,用户在网页检索效率上提高10.12%,查准率提高21.4%,同时,随着集群节点数和数据量的增加,搜索引擎的检索效率逐渐增强。
【作者单位】: 成都信息工程大学计算机学院;
【关键词】计算机应用技术 嵌入式系统工程 Page Rank Map Reduce Hadoop
【基金】:省科技厅科技支撑计划资助项目(2012SZ0070)
【分类号】:TP391.3
【正文快照】: 0引言随着大数据时代的到来,网络数据呈指数增长,如何通过搜索引擎从海量数据中快速、方便、高效地检索到符合需求的信息已经迫在眉睫。搜索引擎技术中网页排序算法成为了关键部分。Page Rank算法是由Google创始人Brin和Page等于1998提出的,算法根据网页链接结构分析和计算网

【相似文献】

中国期刊全文数据库 前9条

1 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期

2 张光年;李茂青;;基于PageRank算法的一种搜索引擎优化方法及实现[J];科技信息;2007年04期

3 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期

4 余润海;;PageRank算法在网页搜索中的实现[J];考试周刊;2009年24期

5 李永亮;黄曙光;鲍蕾;;一种基于PageRank算法和知网的词义消歧方法[J];计算机应用与软件;2011年05期

6 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期

7 李强;王申康;;一种基于PageRank算法原理的会员人气度排序算法[J];计算机系统应用;2008年01期

8 孟瑞玲;;个性化PageRank算法在图书馆智能搜索引擎中的实现[J];现代情报;2010年07期

9 ;[J];;年期

中国硕士学位论文全文数据库 前4条

1 许彬;基于增强型类PageRank算法的搜索引擎的研究与设计[D];武汉理工大学;2014年

2 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年

3 王晓梅;恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现[D];北京邮电大学;2010年

4 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年



本文编号:730760

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/730760.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2c5cb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com