支持检索结果多样化查询性能预测的研究

发布时间：2020-07-01 10:19

【摘要】：对于给定的查询,搜索引擎首先对查询进行分析,之后在预先建好的索引上检索文档,并按一种排名算法产生排序的文档列表。为了评估返回文档列表的性能,通常需要人工判断,非常费时,开销很大。如能开发出自动的、无需人工判断的查询性能预测技术,有较大的实用意义。对于搜索引擎而言,提高一些难度较高查询的性能尤其必要。如能预测此类查询,采取必要的补救措施以提升查询结果的质量,肯定能够提高用户的满意度。因此,设计有效的查询相关性性能预测方法是一项有意义的工作,这也是目前信息检索领域的一个研究方向。一个查询常含有多个子意图,并且对于同一个查询,不同用户往往有不同的意图。为了让更多的用户获得较好的搜索体验,应使靠前的查询结果尽量覆盖更多的子意图。这一过程称为多样化处理,多样化后查询结果的性能称为多样化性能。在检索多样化的背景下,为了避免将多样化性能低的查询结果返回给用户,搜索引擎需要预测查询结果的多样化性能,因此本文对查询多样化性能预测进行了研究。据我们所知,目前文献中还没有涉及这方面的研究。本文主要在以下几个方面进行了研究工作:(1)对于查询相关性性能的预测,从预测查询困难度类别(困难、一般、或容易查询)的角度入手,提出了一个基于支持向量机对查询的困难度进行分类的方法。实验结果显示该方法的预测效果良好,特别在困难类别查询的预测上,有效性较高。(2)对于查询多样化性能的预测,提出了5个算法。并采用TREC Web Track2010-2011多样性任务中提交的结果检验了算法的性能,结果显示预测算法有一定的有效性。(3)分析子查询检索结果的不同获取方式对多样化预测算法的影响。因为提出的多样化预测算法,预测查询多样化性能时需分析子查询检索结果信息,而该结果除了如上一实验从外部资源获取,还可直接从检索结果多样化产生的中间结果获取。实验结果表明,提出的预测算法在性能上依然好于传统预测算法。
【学位授予单位】：江苏大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.3

【参考文献】