基于伪反馈的有效XML查询扩展
发布时间:2019-11-19 21:51
【摘要】:伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。
【图文】:
?反而降低。而观察本文的扩展方法,在返回结果的前10篇和前20篇文档里,分别只有11和6个查询主题的准确率低于扩展前,这充分说明了本文的扩展方案减少了查询漂移现象,在Prec@10和Prec@20上性能分别提高了4%和15%,整体的检索质量得到了提高。分析原因,扩展源的质量至关重要。传统伪反馈是选择初始检索结果的前N篇文档作为扩展源,此扩展源并非每次都包含有较多的相关文档,当用户查询需求比较模糊的时候,得到的检索结果可能会包含有较多的噪音,显然在此环境下进行查询词Fig.1PerformancecomparisononPrec@X图1Prec@X性能比较图Fig.2PerformancecomparisononMAP@X图2MAP@X性能比较图Fig.3PerformancecomparisononPrec@10图3性能比较图(Prec@10)Fig.4PerformancecomparisononPrec@20图4性能比较图(Prec@20)1679
颓?0篇文档里,分别只有11和6个查询主题的准确率低于扩展前,这充分说明了本文的扩展方案减少了查询漂移现象,在Prec@10和Prec@20上性能分别提高了4%和15%,整体的检索质量得到了提高。分析原因,扩展源的质量至关重要。传统伪反馈是选择初始检索结果的前N篇文档作为扩展源,此扩展源并非每次都包含有较多的相关文档,当用户查询需求比较模糊的时候,,得到的检索结果可能会包含有较多的噪音,显然在此环境下进行查询词Fig.1PerformancecomparisononPrec@X图1Prec@X性能比较图Fig.2PerformancecomparisononMAP@X图2MAP@X性能比较图Fig.3PerformancecomparisononPrec@10图3性能比较图(Prec@10)Fig.4PerformancecomparisononPrec@20图4性能比较图(Prec@20)1679
本文编号:2563251
【图文】:
?反而降低。而观察本文的扩展方法,在返回结果的前10篇和前20篇文档里,分别只有11和6个查询主题的准确率低于扩展前,这充分说明了本文的扩展方案减少了查询漂移现象,在Prec@10和Prec@20上性能分别提高了4%和15%,整体的检索质量得到了提高。分析原因,扩展源的质量至关重要。传统伪反馈是选择初始检索结果的前N篇文档作为扩展源,此扩展源并非每次都包含有较多的相关文档,当用户查询需求比较模糊的时候,得到的检索结果可能会包含有较多的噪音,显然在此环境下进行查询词Fig.1PerformancecomparisononPrec@X图1Prec@X性能比较图Fig.2PerformancecomparisononMAP@X图2MAP@X性能比较图Fig.3PerformancecomparisononPrec@10图3性能比较图(Prec@10)Fig.4PerformancecomparisononPrec@20图4性能比较图(Prec@20)1679
颓?0篇文档里,分别只有11和6个查询主题的准确率低于扩展前,这充分说明了本文的扩展方案减少了查询漂移现象,在Prec@10和Prec@20上性能分别提高了4%和15%,整体的检索质量得到了提高。分析原因,扩展源的质量至关重要。传统伪反馈是选择初始检索结果的前N篇文档作为扩展源,此扩展源并非每次都包含有较多的相关文档,当用户查询需求比较模糊的时候,,得到的检索结果可能会包含有较多的噪音,显然在此环境下进行查询词Fig.1PerformancecomparisononPrec@X图1Prec@X性能比较图Fig.2PerformancecomparisononMAP@X图2MAP@X性能比较图Fig.3PerformancecomparisononPrec@10图3性能比较图(Prec@10)Fig.4PerformancecomparisononPrec@20图4性能比较图(Prec@20)1679
本文编号:2563251
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2563251.html