当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中索引表求交和提前停止技术优化研究

发布时间:2019-01-08 11:48
【摘要】:目前搜索引擎系统所处理的网页数据量、用户的查询数量都在与日俱增,如何能高效地完成用户查询是最近几年,无论是工业界还是学术界都在着力解决的问题,本文便是应上述需求而展开研究的。具体来说,本文探讨了索引表求交算法和提前停止技术,我们还尝试采用新一代的图形显卡技术来提升查询处理的效率。具体工作包括以下几方面: 第一,本文首先系统地回顾了目前的索引表求交算法,并采用真实搜索引擎的查询集在GOV和GOV2数据集上对各种求交算法和搜索策略进行测试和概要分析,评价各种因素对求交算法性能的影响,并相应提出优化方法。前人对求交和搜索算法的分析和评价主要关注比较次数对运行时间的影响,本文尝试分析更接近系统架构层面的分支预测失败次数和缓存失效次数对求交和搜索算法性能的重要影响。作者发现,基于SvS求交模型并使用哈希分段策略的算法性能最佳,尽管该算法的比较次数并不是最少的,但是在付出少量额外存储空间的前提下,运行过程中的缓存失效和分支预测失败数相对较低,从而达到了最佳的性能。本文还讨论了文档重排序对于求交算法性能的影响,大部分求交算法在按照URL排序的索引上的性能优于文档随机编号的索引,且缓存失效数和分支预测失败数更少。另外,通过表长的相对比值来分析求交算法中各种搜索策略的性能,,本文设计了一种启发式的调度策略来提升求交算法的性能,实验结果表明这种启发式混合调度策略可以显著提升索引表求交算法的性能。 第二,目前图形显卡(GPU)由于拥有强大的并行计算能力,已经越来越多地应用在各种科学计算的任务中。本文探讨了利用GPU加速搜索引擎中的索引表求交算法以及后续的文档分数计算、排序等步骤,实验表明本文提出的算法可以大幅度提升查询处理的吞吐率。具体来说,本文针对搜索引擎中可能存在的高查询负载的交互式查询或者非交互式查询,提出了CPU-GPU协同工作模型来加速搜索引擎中的索引表求交运算。当系统处于低负载的时候,CPU还远没有达到负载上限时,查询处理的响应时间是首先需要考虑的因素,每当新的查询进入系统时,可以采用CPU或者GPU求交算法对查询进行处理。而当系统处于高查询负载或需要处理非交互式查询时,则采用同步模式,其中若干查询首先在CPU端组成批次,再发送到GPU上进行处理。基于上述模型,在处理高负载查询或者非交互查询的情况下,利用GPU的大规模并行处理能力,查询处理的吞吐率可以大幅增加。本文则提出并实现了这种批次求交的框架。在这个框架中,求交部分中的搜索算法是性能瓶颈,因此本文着重讨论搜索算法的各种优化策略。具体来说,在本文提出的GPU表求交算法中,当某两个索引表1和2进行求交操作时(|1|≤|2|),对于1的每一个元素,GPU的每一个线程执行某种搜索策略在2中进行搜索,以发现交集元素。其中最简单的搜索策略为二分搜索,本文以该算法作为基准,提出了线性回归搜索、哈希分段搜索和基于Bloom Filter的GPU求交算法。实验结果显示,本文提出几种策略可以显著提升GPU求交算法的性能,尤其是哈希分段算法的性能提升最为明显。同时,本文还讨论了索引重排对于GPU求交算法性能的影响。除此之外,本文还研究了如何在GPU求交算法的基础上对文档计算分数并排序,提出了一种适合GPU批次算法的文档排序方法。 第三,本文还讨论了求交运算后进一步优化查询处理,即利用提前停止技术优化文档排序工作。提前停止的基本思想是无需扫描完全部索引表,即可将与用户查询相关度分数最高的前k名文档求出。针对于仅仅依赖全局信息排序的索引结构,很难获得很好的提前停止效果的问题,本文提出了新的方法来重新组织索引结构,获得了显著的性能提升。具体来说,本文首先对提前停止效果和静态排名分数、词频分数的分布之间的关系进行理论分析。本文发现只要词频分数是均匀分布的,提前停止的效果会非常好。然而,真实的词频分数是不服从均匀分布的,即某些分数的值的概率会高于其它分数值。而上述倾斜的分布正是导致全局排名方法提前停止效率较差的原因。本文提出了新的算法来依据某些额外的信息来重新安排倒排索引中文档的组织方式。具体地,本文提出了利用文档词频分数上界(UBIR)与静态排名分数结合后的分数作为排序的标准重新组织索引结构,以提升查询处理中提前停止的效果。通过这种方法,在进行查询处理时,文档词频数的估计值可以显著地降低,从而可以更快地满足提前停止的条件。本文还提出了其它几种的基于全局信息对索引进行排序的方法。通过在GOV和GOV2数据集上比较本文提出的各种算法,并且与现有的全局排名的方法进行比较,结果显示,本文的方法可以有效地提升查询处理的效率。
[Abstract]:At present, the number of web pages processed by the search engine system is increasing, and how to efficiently complete the user's query is the most recent years, whether industry or academia is working hard to solve, this paper is to study the above requirements. In particular, this paper discusses the index table intersection algorithm and the early stop technique, and we also try to improve the efficiency of query processing by using a new generation of graphic graphics card technology. The specific work includes the following aspects: First, this paper first systematically reviews the current index table intersection algorithm, and uses the query set of the real search engine to test and outline the various intersection algorithms and search strategies on the GOV and GOV2 data sets. The influence of various factors on the performance of the algorithm is evaluated, and the optimization method is put forward accordingly. In this paper, we try to analyze the influence of the number of branch prediction failures and the number of cache failures on the performance of the search algorithm and the search algorithm. In response, the author has found that the algorithm performance of the model based on SvS and using the hashing strategy is the best, although the number of the comparisons of the algorithm is not the least, the cache failure and the number of the branch prediction failures in the running process are relatively low on the premise of a small amount of extra storage space. low, thus achieving the best This paper also discusses the effect of re-ordering of documents on the performance of the algorithm. Most of the algorithms are better than the index of the random number of the document in the index ordered by the URL, and the number of cache failures and the number of branch prediction failures are more In addition, the performance of various search strategies in the intersection algorithm is analyzed by the relative ratio of the table length. In this paper, a heuristic scheduling strategy is designed to improve the performance of the algorithm. The experimental results show that this heuristic hybrid scheduling strategy can significantly improve the performance of the algorithm. Second, the current graphics graphics card (GPU) has been used more and more in various scientific computing because of its powerful parallel computing capability In this paper, the paper discusses the steps of using the algorithm of the index table in the GPU to accelerate the search engine and the subsequent calculation and sorting of the documents. The experiments show that the proposed algorithm can greatly improve the query processing. In this paper, an interactive query or non-interactive query of the high query load that may exist in the search engine is presented, and the CPU-GPU cooperative work model is proposed to speed up the index table in the search engine. When the system is in a low load, the response time of the query processing is the first to be considered when the system is in the low load, and each time the new query enters the system, the CPU or the GPU can be used to ask the algorithm to query the query. Line processing. When the system is in a high query load or a non-interactive query needs to be processed, a synchronization pattern is used, in which a number of queries first constitute a batch at the CPU end and then sent to the GPU. line processing. Based on the model, in the case of processing a high-load query or a non-interactive query, the throughput rate of the query processing can be large with the large-scale parallel processing capability of the GPU. In this paper, this paper presents and implements this batch. In this framework, the search algorithm in the intersection is the performance bottleneck, so this paper focuses on the various advantages of the search algorithm. Specifically, in the GPU table intersection algorithm proposed herein, when one of the two index tables 1 and 2 performs an intersection operation (| 1 | 1 | 2 |), for each element of 1, each thread of the GPU executes a search strategy to search in 2 to find the intersection The simplest search strategy is a binary search. In this paper, based on the algorithm, a linear regression search, a hash-segment search, and a Bloom Filter-based GPU are proposed. The experimental results show that several strategies can improve the performance of the algorithm, especially the performance of the hash segmentation algorithm. This paper also discusses the performance of the index rearrangement for GPU. In addition, the paper also studies how to compute the score of the document on the basis of the GPU's intersection algorithm, and put forward a kind of document bank suitable for GPU batch algorithm. The third, this paper also discusses the further optimization of query processing after the intersection operation, that is, using the advance stop technique to optimize the text. File sorting. The basic idea to stop in advance is that you can query the top k with the highest correlation score with the user without the need to scan the full index table. In this paper, a new method is proposed to re-organize the index structure. In particular, in this paper, the relationship between the early stop effect and the static ranking score and the word frequency score is first In this paper, we find that as long as the word frequency score is uniformly distributed, the effect of early stop The fruit will be very good. However, the true word frequency score is not subject to uniform distribution, that is, the probability of certain scores will be higher other fractional values. The above-described skew distribution is the leading end of the global ranking approach This paper proposes a new algorithm to rearrange the documents in the inverted index according to some extra information. In this paper, the index structure of the index is re-organized by using the score of the upper bound (UBIR) and the static ranking score in the document, so as to advance the advance in the query processing. By this method, when the query processing is performed, the estimated value of the frequency of the document word can be significantly reduced, so that the advance can be more quickly satisfied. In this paper, several other global information-based indexes are also put forward. By comparing the various algorithms proposed in this paper on the GOV and GOV2 data sets, and compared with the existing global ranking method, the results show that the method can effectively improve the query.
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 那罡;;移动搜索的“简单”逻辑[J];中国计算机用户;2006年26期

2 刘兴波;;数据挖掘在搜索引擎中的应用[J];辽宁省交通高等专科学校学报;2008年03期

3 谢红侠;惠正运;;一种面向文档的XML的索引查询方法[J];微机发展;2005年12期

4 许洪超;袁培燕;;智能搜索引擎系统的建模分析[J];福建电脑;2009年08期

5 陆小丽;何加铭;;基于Map/Reduce的索引数据云存储模型研究[J];宁波大学学报(理工版);2011年03期

6 王路芳;张虎;;一种面向搜索引擎的基于集合模型的搜索算法[J];山西农业大学学报(自然科学版);2009年06期

7 卢秉亮;朱健;张磊;曹一鹏;;Internet搜索引擎索引数据库的设计与实现[J];微处理机;2006年03期

8 吴启明;;基于XML的搜索引擎[J];中国新技术新产品;2008年12期

9 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期

10 ;关键词搜索[J];每周电脑报;2000年38期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 何璐;李晋宏;;基于XML的大容量搜索引擎技术探讨[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

7 张维华;王国仁;于戈;郑怀远;;面向对象数据库系统中索引的建立与维护[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

相关重要报纸文章 前10条

1 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年

2 李一鑫;搜索排名的红与黑[N];财经时报;2007年

3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

相关博士学位论文 前10条

1 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年

2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

3 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

6 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

8 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 张蕾;基于Lucene的电子档案检索系统的设计与实现[D];西安电子科技大学;2010年

2 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

3 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年

4 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

5 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年

6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

7 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年

8 刘志伟;数学搜索引擎研究[D];兰州大学;2011年

9 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年

10 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年



本文编号:2404556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2404556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88f33***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com