当前位置:主页 > 科技论文 > 软件论文 >

信息检索模型风险及其评价方法研究

发布时间:2018-10-13 11:35
【摘要】:随着信息检索技术的不断发展,信息检索模型不同阶段出现的风险问题,如相关性估计中的风险,文档排序中的风险,查询扩展中的风险逐渐地被关注。研究这些风险问题的突破点是设计一种可以同时评价性能均值和模型风险的方法,量化这些风险的大小,进而再找出降低风险的策略。本文的研究重点有两个,其一是对信息检索风险评价指标的研究,具体工作是将基于偏差方差分解的风险评价指标从平均准确率(AP)一般化到其他评价指标,并将该指标中的目标模型设置得更加公平无偏。另一个研究重点是如何降低信息检索模型中存在的查询扩展失败的风险。针对该问题,本文提出了一种基于知识图谱的查询扩展方法来降低检索模型的风险,即增加了查询扩展模型中与查询相关的信息来降低风险,具体做法是从知识图谱中抽取与查询相关的若干实体及实体属性作为扩展词来重构查询,更好地表达用户的信息需求;且在计算扩展词权重时,参考了投资组合理论中的收益-风险分析方法,最大化扩展词和原查询的相关性收益,同时也最小化扩展词可能带来的查询漂移的风险,更进一步控制了查询扩展中的风险。为检验本文所提出的基于偏差方差分解的风险评价方法的合理性,实验部分首先利用该评价方法重新评价了TREC Ad Hoc(1993-1999)和Web Track(2010-2013)两个任务上提交的模型检索结果,说明了所提评价方法对衡量模型整体性能的合理性,并利用偏差和方差对模型的有效性和稳定性之间存在的折中现象做了量化分析。接着针对本文所提基于知识图谱来降低查询扩展风险的策略,实验部分在两个网页数据集上验证了该策略的有效性,并和基于伪相关反馈的查询扩展模型(RM3)做了对比分析,实验结果表明该本文所提扩展模型在有效性和稳定性上都优于RM3。
[Abstract]:With the development of information retrieval technology, the risk problems in different stages of information retrieval model, such as the risk in correlation estimation, the risk in document sorting and the risk in query expansion, have been paid more and more attention. The breakthrough point of studying these risk problems is to design a method that can evaluate both the performance mean and model risk, quantify the size of these risks, and then find out the risk reduction strategy. There are two emphases in this paper. One is to study the risk evaluation index of information retrieval. The specific work is to generalize the risk evaluation index based on deviation variance decomposition from average accuracy (AP) to other evaluation index. And the target model in this index is set more fairly and unbiased. Another research focus is how to reduce the risk of query expansion failure in the information retrieval model. To solve this problem, this paper proposes a query extension method based on knowledge atlas to reduce the risk of retrieval model, that is, to reduce the risk by adding information related to query expansion model. The specific method is to extract a number of entities and entity attributes related to the query from the knowledge map as extension words to reconstruct the query, to better express the information needs of users, and to calculate the weight of the extended words. Referring to the profit-risk analysis method in portfolio theory, the paper maximizes the correlation benefit between the extension word and the original query, and minimizes the risk of query drift caused by the extended word, which further controls the risk in query expansion. In order to test the rationality of the risk assessment method based on deviation variance decomposition, the model retrieval results submitted by TREC Ad Hoc (1993-1999 and Web Track (2010-2013) were reevaluated in the experimental part. The rationality of the proposed evaluation method for measuring the overall performance of the model is explained, and the tradeoff between the validity and stability of the model is analyzed quantitatively by using deviation and variance. Then, aiming at the strategy of reducing the risk of query expansion based on knowledge atlas, the experimental results show that the strategy is effective in two web data sets, and is compared with the query extension Model (RM3) based on pseudo-correlation feedback. The experimental results show that the extended model proposed in this paper is more effective and stable than RM3..
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 鲁屹华;;信息检索模型相关研究现状及分析[J];科技经济市场;2011年11期

2 赵琳;;几种信息检索模型的比较[J];煤炭技术;2012年08期

3 王娟;;基于中文科技期刊数据库信息检索模型的研究[J];科教文汇(中旬刊);2012年10期

4 齐继国,高X},汪东升;基于多用户协同反馈的信息检索模型[J];小型微型计算机系统;2003年07期

5 吴晨;张全;缪建明;;基于语言概念空间的跨语种信息检索模型[J];计算机工程;2006年18期

6 吴丽华;罗云锋;张宏斌;;信息检索模型及相关性算法的研究[J];情报杂志;2006年12期

7 周竹荣;黄果;周亭;;一种混合的文本信息检索模型研究[J];计算机工程与设计;2007年11期

8 钟振鸿;印润远;于庆梅;;基于本体驱动的法律信息检索模型[J];微计算机信息;2007年30期

9 刘伟成;孙吉红;;跨语言信息检索模型应用研究[J];情报杂志;2007年10期

10 张小芳;;几种常见信息检索模型的分析与评价[J];情报杂志;2008年03期

相关会议论文 前10条

1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 黄国斌;王明文;叶浩;;一种新的基于中间语义的跨语言信息检索模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 张文雅;宋大为;赵晓朝;张鹏;李竞飞;;基于可读性的信息检索模型研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

5 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年

6 普东航;唐常杰;元昌安;廖勇;张天庆;于中华;;一种基于相邻地址的信息检索模型AAM[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

8 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年

9 孙斌;吕学强;苏祺;;义项矩阵模型SMM简介[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年

相关博士学位论文 前9条

1 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年

2 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年

3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

4 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年

5 涂新辉;基于概念的信息检索模型研究[D];华中师范大学;2012年

6 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年

7 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年

8 郭晓黎;煤矿安全事件本体及其在查询扩展中的应用研究[D];中国矿业大学(北京);2016年

9 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

相关硕士学位论文 前10条

1 郝林雪;信息检索模型风险及其评价方法研究[D];天津大学;2016年

2 任克江;基于地理信息的检索和用户数据挖掘[D];大连理工大学;2013年

3 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年

4 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年

5 黄果;文本信息检索模型研究[D];西南大学;2007年

6 张文雅;基于可读性的信息检索模型研究[D];天津大学;2016年

7 张东伟;中英文跨语言信息检索模型研究[D];黑龙江大学;2006年

8 廖亚男;基于多层Markov网络的信息检索模型[D];江西师范大学;2014年

9 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年

10 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年



本文编号:2268471

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2268471.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cee88***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com