基于Hadoop的PageRank算法的研究与改进
本文关键词:基于Hadoop的PageRank算法的研究与改进
更多相关文章: 计算机应用技术 嵌入式系统工程 Page Rank Map Reduce Hadoop
【摘要】:传统Page Rank算法单纯从网页链接结构进行分析而未考虑搜索主题漂移、侧重于旧网页以及忽略用户兴趣的问题。为提高搜索引擎检索效率,通过增加主题内容相关度、有效点击频率和时间反馈因子对算法进行改进。使用分布式计算框架Map Reduce实现改进算法并部署运行在Hadoop集群上。对实验数据进行对比分析,发现改进后的Page Rank算法在Nutch上的爬取索引效率提高7.209%,用户在网页检索效率上提高10.12%,查准率提高21.4%,同时,随着集群节点数和数据量的增加,搜索引擎的检索效率逐渐增强。
【作者单位】: 成都信息工程大学计算机学院;
【关键词】: 计算机应用技术 嵌入式系统工程 Page Rank Map Reduce Hadoop
【基金】:省科技厅科技支撑计划资助项目(2012SZ0070)
【分类号】:TP391.3
【正文快照】: 0引言随着大数据时代的到来,网络数据呈指数增长,如何通过搜索引擎从海量数据中快速、方便、高效地检索到符合需求的信息已经迫在眉睫。搜索引擎技术中网页排序算法成为了关键部分。Page Rank算法是由Google创始人Brin和Page等于1998提出的,算法根据网页链接结构分析和计算网
【相似文献】
中国期刊全文数据库 前9条
1 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
2 张光年;李茂青;;基于PageRank算法的一种搜索引擎优化方法及实现[J];科技信息;2007年04期
3 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期
4 余润海;;PageRank算法在网页搜索中的实现[J];考试周刊;2009年24期
5 李永亮;黄曙光;鲍蕾;;一种基于PageRank算法和知网的词义消歧方法[J];计算机应用与软件;2011年05期
6 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期
7 李强;王申康;;一种基于PageRank算法原理的会员人气度排序算法[J];计算机系统应用;2008年01期
8 孟瑞玲;;个性化PageRank算法在图书馆智能搜索引擎中的实现[J];现代情报;2010年07期
9 ;[J];;年期
中国硕士学位论文全文数据库 前4条
1 许彬;基于增强型类PageRank算法的搜索引擎的研究与设计[D];武汉理工大学;2014年
2 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
3 王晓梅;恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现[D];北京邮电大学;2010年
4 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
,本文编号:730760
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/730760.html