基于PageRank算法的分布式搜索引擎技术研究
发布时间:2019-09-26 16:31
【摘要】:自人类社会进入电子信息时代以来,互联网产业呈迅猛发展态势,网络信息资源已逐步成为人类获取资讯的重要途径,这使现阶段搜索引擎面临着前所未有的挑战,技术改革创新已势在必行。面对繁多杂乱的信息数据,是否能够准确检索到满足用户需求的重要信息成为评判搜索引擎质量的重要指标之一,为此,网页排序算法作为影响搜索引擎质量因素而收到广泛重视。同时,面对互联网的飞速发展,数额庞大且仍旧爆炸式增长的信息数据,传统的集中式搜索引擎已渐露疲态。分布式搜索引擎很好的解决了集中式搜索引擎在可扩展性,网络资讯涵盖率以及实时性等方面的局限。一改系统机能在-台主机实现的集中式结构,将搜索引擎的功能实现交由互联网上若干服务器完成,并由中心节点调控,形成分布式搜索结构。分布式搜索引擎的研究越发受到搜索引擎运营商的关注,势必变为未来搜索引擎的发展方向。 本文首先通过对基于网络链接结构的经典网页排序算法——PageRank算法的学习研究,针对算法权威值均分,以及忽略用户随机行为的缺陷提出了一种改进的Page Rank算法。新算法借鉴马尔可夫链转移概率思想,利用网页入度在竞争网页中的比率以及用户二次搜索概率来构造转移概率,使网页权威值按照转移概率分配。同时,本文设计了基于Hadoop和Lucene开源框架的分布式搜索引擎模型,在传统搜索引擎中引入HDFS分布式文件系统以及Map/Reduce计算模型等分布式计算技术,将模型系统分为分布式爬行器,分布式索引器以及分布式检索器三个模块实现搜索引擎的分布式设计。利用Master/Slave结构,由一个Master节点分发任务到各个Slave节点完成功能的实现,Master节点通过分析Slave节点上报的“心跳记录”对其进行控制协调。改进的分布式搜索引擎模型系统对于PC的性能要求低,并具有更好的可扩展性,实时性以及更高的网络覆盖率。此外,本文将改进的PageRank算法应用到分布式系统中,优化检索质量,使PageRank算法与分布式搜索引擎得到了更好的结合。
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
本文编号:2542249
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
2 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
3 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
4 陈玮,陈玉鹏,石晶,陆达;一种高效的全文检索索引技术[J];计算机应用研究;2004年07期
5 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
7 张岭,叶允明,宋晖,于水,马范援;一种高性能分布式Web Crawler的设计与实现[J];上海交通大学学报;2004年01期
8 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
9 龚丽萍;;搜索引擎Google与百度比较研究[J];图书情报论坛;2007年03期
10 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
相关博士学位论文 前2条
1 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
2 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
,本文编号:2542249
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2542249.html