当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中索引剪枝的研究

发布时间:2018-07-26 10:39
【摘要】:搜索引擎作为人们获取网络信息的主要入口,正在被越来越多的人使用。不断增长的网页数量和查询请求量使得搜索引擎面临着巨大的性能挑战。通常,搜索引擎每秒需要在数百亿的网页数据上处理成千上万的查询。因此,,如何高效地处理查询一直是搜索引擎和信息检索领域中重要的研究问题。 本文从索引剪枝的角度出发来研究提升查询处理效率的方法。索引剪枝通常分为静态索引剪枝和动态索引剪枝的方法。静态索引剪枝方法主要用在索引构建阶段。它在索引构建时,去除索引中一些对查询不重要的信息来缩短倒排链长度,减小倒排索引的大小,从而提升查询的速度。动态索引剪枝的方法主要用在查询的处理阶段。它在查询的处理时,通过使用相应的索引辅助结构来跳过一些对查询不重要的文档来提升查询的处理速度。本文分别从静态索引剪枝和动态索引剪枝两方面来研究提升查询处理的方法,并提出了一些新的索引结构和算法来支持高效的查询处理。 本文的工作、创新性和主要贡献主要体现在以下几个方面: 1.本文提出了一种基本网页结构和重要度的静态索引剪枝方法。在这种剪枝方法中,它一方面利用网页的结构来区别对待在不同结构中信息的重要程度,优先保留重要结构中的信息。另一方面利用网页与网页之间的重要度不同,对重要度高的网页保留更多比例的信息。通过在GOV2数据集上的相关实验,我们发现网页结构和重要度信息对文档的剪枝都有非常大的帮助。结合这两种信息的静态索引剪枝方法在去除80%的倒排项时,P@10指标与使用完整索引的效果相当,存储开销减小了73%,查询处理的速度提升了2倍。 2.本文提出了一种基于块最大索引的动态索引剪枝算法的处理框架。在此框架下,本文提出了3个新的动态索引剪枝算法,分别为Block-MaxMaxScore (BMM), Local Block-Max WAND (LBMW)和Local Block-MaxMaxScore (LBMM)。在这个框架下查询处理主要分为三步:1).选择候选文档。本文提出的算法利用块局部最大分数而不是词的全局最大分数来选择候选文档,大大减少了选择候选文档的数量。2).过滤文档。利用文档所在块最大分数来过滤候选文档。本文提出一种更高效的过滤方法,它能充分的利用查询处理局部性,提升过滤的效率。3).候选文档打分。本文提出的算法利用块最大分数来动态估算文档分数上限,从而可以尽快的结束对不重要的候选文档的打分。实验表明,新提出剪枝算法在查询处理速度上比已有的算法都有明显的提升,它比经典的剪枝方法快近1倍。 3.本文提出了两种在块最大索引中存储文档静态分数与词相关性分数的方法。使得动态索引剪枝算法的打分函数在包含文档静态分数时也能对查询进行高效的剪枝。一种方法是对每个块分别存储块中最大的词相关性分数和文档静态分数;另一种方法是先把词相关性分数与文档静态分数合并,然后存储块中最大合并分数。第二种方法相对于第一种方法能更加精确地估算候选文档的分数,但它存在低估候选文档分数的情况。本文分析了产生文档分数低估的原因并给出了相应的解决方法。同时,本文还讨论了在不同文档重排序下对动态索引剪枝算法的影响。实验表明在打分公式中文档静态分数比例较小时,按URL序重排序的索引查询处理的速度比较快。当文档静态分数的比重增加时,则按文档静态分数序排序的索引的查询处理更有优势。 4.本文提出一种在区间最大索引中最优化区间划分的方法,并在这种区间划分的方式下,提出了4种动态索引剪枝算法:Space-Max WAND (SMW),Space-Max MaxScore (SMM),Space-Max AND (SMA)和Space Max AND withCheck (SMAC)。这种最优化区间划分的方法结合了文档分数估算误差和区间自身的处理开销等因素。它能在同等条件下对索引中的每个倒排链划分出最优的区间。利用区间最大的分数,新提出剪枝算法能更加精确的估算出候选文档的分数,减少找到候选文档的数量,同时对候选文档打分也能更早的结束。实验表明,这种基于最优化区间的方法的剪枝算法比根据倒排链长度来划分区间的方法处理查询的效率高。而基于区间最大索引的剪枝算法比基于块最大索引的剪枝算法效率高。 5.在上述的研究成果的基础上,重新设计并实现了天网搜索引擎。使得天网搜索引擎在索引量和查询处理的效率都有非常大的提升。
[Abstract]:The search engine is being used by more and more people as the main entrance to network information. The increasing number of web pages and query requests make the search engine face huge performance challenges. Often, search engines need to manage thousands of queries per second on the hundreds of billions of web pages. So how efficient Query processing has always been an important research issue in search engine and information retrieval field.
This paper studies the method of improving the efficiency of query processing from the angle of index pruning. Index pruning is usually divided into static index pruning and dynamic index pruning. The static index pruning method is mainly used in the index construction phase. When the index is built, some unimportant information in the index are removed to shorten the length of the inverted chain length. Degree, reducing the size of the inverted index to improve the speed of the query. The method of dynamic index pruning is mainly used in the processing phase of the query. In the processing of the query, it uses the corresponding index auxiliary structure to jump some queries that are not important to the query to improve the query rate. This article cuts and moves from the static index respectively. State index pruning in two aspects to study the method of improving query processing, and put forward some new index structure and algorithm to support efficient query processing.
The innovation and main contributions of this work are mainly reflected in the following aspects:
1. this paper presents a static index pruning method for basic web page structure and importance. In this pruning method, it uses the structure of the web page to distinguish the importance of information in different structures and to retain information in important structure. On the other hand, it is important to make use of the importance of the web page to the web. The web page structure and importance information are very helpful to the pruning of the document. The static index pruning method combined with these two kinds of information has the same effect as the use of a complete index when removing 80% inverted items with the two information. The cost is reduced by 73% and the query processing speed is increased by 2 times.
2. this paper presents a framework for the processing of dynamic index pruning algorithms based on block maximum index. Under this framework, 3 new dynamic index pruning algorithms are proposed, which are Block-MaxMaxScore (BMM), Local Block-Max WAND (LBMW) and Local Block-MaxMaxScore (LBMM). In this framework, the query processing is divided into three steps. 1). Select candidate documents. The proposed algorithm uses a local maximum fraction of the block instead of the global maximum fraction of the word to select the candidate document, greatly reducing the number of selected candidate documents.2). Filter the document. Filter the candidate document using the maximum block score of the document. This paper proposes a more efficient filtering method, which can be fully used. Using the query processing locality to improve the efficiency of filtering.3). The candidate document is graded. The proposed algorithm uses the block maximum score to dynamically estimate the upper limit of the document fraction, so that the score of the unimportant candidate documents can be ended as soon as possible. The experiment shows that the new pruning algorithm is better than the existing algorithms in the query processing speed. Obviously, it is nearly 1 times faster than the classical pruning method.
3. this paper presents two methods to store the static fraction of the document and the correlation fraction of the word in the block maximum index. It makes the scoring function of the dynamic index pruning algorithm effectively prune the query when it contains the static fraction of the document. One method is to store the maximum word correlation score and the document static of each block respectively. The other method is to combine the word correlation fraction with the document static fraction first, and then store the maximum merge score in the block. The second method can estimate the score of the candidate document more accurately than the first method, but it underestimates the candidate document fraction. At the same time, this paper also discusses the influence of the dynamic index pruning algorithm under different reordering of the document. The experiment shows that the rate of the document static fraction in the scoring formula is small, and the speed of the index query processing according to the URL order reordering is faster. Query processing with index sorting is more advantageous.
4. this paper presents a method for the optimal interval division in the interval maximum index. In this way, 4 dynamic index pruning algorithms are proposed: Space-Max WAND (SMW), Space-Max MaxScore (SMM), Space-Max AND (SMA) and Space Max AND. The optimal interval of each inverted chain in the index can be divided under the same condition. Using the maximum fraction of the interval, the new pruning algorithm can estimate the score of the candidate document more accurately, reduce the number of candidate documents, and score the candidate documents at the same time. The experiment shows that the pruning algorithm based on the optimal interval method is more efficient than the method based on the inverted chain length to divide the interval, and the pruning algorithm based on the maximum index of the interval is more efficient than the pruning algorithm based on the largest index of the block.
5. on the basis of the above research results, the Skynet search engine is redesigned and implemented, which makes the search engine in the sky network greatly improve the efficiency of index and query processing.
【学位授予单位】:北京大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 叶千军;吴人珊;;检索系统设计中若干重要选择的研究(三)[J];大学图书馆学报;1989年06期

2 蓝海洋,周杰韩,张和明;文本索引词项相对权重计算方法与应用[J];计算机工程与应用;2003年15期

3 陈莉;浅谈古籍书目索引的编纂[J];图书情报知识;2005年03期

4 陈莉;韩锡铎;;浅谈古籍书目索引的编纂[J];中国索引;2004年04期

5 张新凤;;SciFinder Scholar数据库医院图书馆学研究文献内容分析[J];医学信息学杂志;2009年11期

6 胡小菁;情报检索语言语法手段分析[J];上海第二工业大学学报;1991年01期

7 子皿 ,迈至科;搜索引擎探密(上)[J];中国计算机用户;1997年01期

8 陶跃华;赵波;杨秀国;;搜索引擎的文档预处理技术研究[J];计算机科学;2002年07期

9 陆小丽;何加铭;;基于Map/Reduce的索引数据云存储模型研究[J];宁波大学学报(理工版);2011年03期

10 刘丹;利用《CA on CD》光盘数据库查找信息资源[J];大学化学;2001年04期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 孙斌;;使用内存汇集的新闻搜索索引更新[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年

2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

8 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 邢科;基于GPU的索引构建方法研究[D];华中科技大学;2012年

2 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年



本文编号:2145740

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2145740.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d063***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com