正负相关反馈与查询扩展技术的研究
本文选题:信息检索 + 相关反馈 ; 参考:《内蒙古大学》2012年博士论文
【摘要】:信息获取在人们的工作、生活等各种活动中占有重要的地位,获取信息的渠道和方法是多种多样的。随着计算机网络、移动通信和全球信息化的快速发展,通过Web网络和搜索引擎获得信息已成为人们的生活和工作习惯,是获取信息的重要方法之一。信息分布广泛、形态多样、组织开放、管理松散、更新快、变化快、传输快等多种因素致使信息检索难度加大。人们对信息检索从结果、效率和方式都提出了更高、更多样化的要求,这些特性和需求对信息检索提出了更大的挑战。搜索引擎必须有强大的、先进的信息检索技术支撑,才能更好的满足用户的要求。 通常用户对信息需求的表达不够准确和清晰,往往只是几个单词,经常得不到满意的检索结果。通过反馈扩展查询模型是一种常用的和有效的提高检索性能的策略,因此扩展查询和反馈技术一直是信息检索领域中研究的重点之一。大量的有关这方面的研究工作主要集中在相关反馈和伪相关反馈方面,近几年开始关注负反馈的研究。但在语言模型框架下的正反馈与负反馈相结合的模型的研究在SIGIR中还不曾见到。本文以正负反馈模型为研究核心,围绕该核心对其模型框架、正负反馈的自动识别、模型参数动态调整、多主题反馈等展开研究工作,并取得了以下主要成果。 (1)正负反馈模型框架:基于已有的相关反馈、伪相关反馈和负反馈的研究基础,提出了一种基于语言模型的正负反馈相结合的检索模型框架,相关反馈、伪相关反馈和负反馈等模型均是该模型的特例。正反馈增强放大查询信息,负反馈有效地抑制查询噪音与正反馈内含噪音,有效地提高了检索性能。在平均查准率和前10个文档的查准率方面都超过了伪相关反馈模型和相关反馈模型,和伪相关反馈模型相比大幅地减少了受损的查询数量,提高了鲁棒性。 正负反馈模型参数的动态调整:正负反馈模型是由查询、正反馈和负反馈三种成分通过线性插入法混合而成,任何一种混合成分的检索模型其检索结果对各成分比例系数是比较敏感的。针对正负反馈模型提出了两种简单、可行而有效的动态调整参数的算法,一种是依据不相关文档的比例计算法,一种通过训练集学习参数值发,从而进一步提高了正负反馈模型的检索性能。 (2)聚类区分相关和不相关文档:在分析top k文档中相关与不相关文档的分布特点的基础上,通过理论分析和实验发现密度聚类算法能够很好地识别孤立的不相关文档,对密度聚类算法DBSCAN进行改进,以72%以上的准确率和32%的查全率发现top k中的不相关文档,以54%以上的准确率和87%以上的查全率发现top k中的相关文档。将top k分为两个集合,连通集合和孤立点集合,把它们分别做为正负反馈模型中的正、负反馈,检索性能远超于伪相关反馈。 (3)用多主题域改进伪相关反馈模型:提出了一种新的应用多主题域信息改进伪相关反馈的模型,重构查询是由原查询、top k和多主题域中的top s组成,能够有效地改进伪相关反馈的检索性能。该方法能够应用于个性化检索中。
[Abstract]:Information acquisition plays an important role in people's work, life and other activities. The channels and methods of obtaining information are varied. With the rapid development of computer network, mobile communication and global information, obtaining information through Web network and search engine has become a habit of people's life and work, and it is a heavy information acquisition. One of the methods is that information is widely distributed, the form is diverse, the organization is open, the management is loose, the update is fast, the change is fast, the transmission is fast and so on, which makes the information retrieval more difficult. People have put forward higher and more samples from the results, efficiency and ways of information retrieval, and these characteristics and requirements put forward more challenges to information retrieval. Search engine must have strong and advanced information retrieval technology to support users in order to better meet the requirements.
Generally, the expression of the user's information requirement is not accurate and clear, often only a few words, often without satisfactory retrieval results. Through feedback extending the query model is a common and effective strategy to improve the retrieval performance. Therefore, the extended query and feedback technology has always been one of the key points in the field of information retrieval. The research work on this aspect is mainly focused on the related feedback and pseudo correlation feedback. In recent years, the research on negative feedback has been concerned. However, the research on the combination of positive feedback and negative feedback in the framework of language model has not been seen in SIGIR. The research has been carried out in the framework of automatic recognition of positive and negative feedback, dynamic adjustment of model parameters, and multi topic feedback, and the following main achievements have been achieved.
(1) the framework of positive and negative feedback model: Based on the related feedback, pseudo correlation feedback and negative feedback, a retrieval model framework based on positive and negative feedback based on language model is proposed. Correlation feedback, pseudo correlation feedback and negative feedback are all special examples of the model. Positive feedback enhancement amplification query information, negative feedback The query noise and positive feedback noise are effectively suppressed, and the retrieval performance is effectively improved. The average precision and the precision of the first 10 documents are more than the pseudo correlation feedback model and the correlation feedback model. Compared with the pseudo correlation feedback model, the number of damaged inquiries is greatly reduced and the robustness is improved.
The dynamic adjustment of the parameters of the positive and negative feedback model: the positive and negative feedback model is composed of three components: query, positive feedback and negative feedback. The retrieval results of any kind of mixed component are sensitive to the proportion coefficient of each component. Two simple, feasible and effective methods are proposed for the positive and negative feedback model. The algorithm for dynamic adjustment of parameters is based on the proportional calculation method of unrelated documents, and a training set is used to learn the value of parameters, thus further improving the retrieval performance of the positive and negative feedback model.
(2) clustering correlation and unrelated documents: on the basis of analyzing the distribution characteristics of related and unrelated documents in top k documents, the density clustering algorithm can identify isolated unrelated documents well through theoretical analysis and experiment, and improve the density clustering algorithm DBSCAN with more than 72% accuracy and 32% recall. The unrelated documents in the present top k are found in the relevant documents in top k with more than 54% accuracy and more than 87% recall. The top k is divided into two sets, connected sets and outlier sets, and they are respectively used as positive and negative feedback in the positive and negative feedback model, and the retrieval performance is far more than pseudo correlation feedback.
(3) using multi topic domain to improve pseudo correlation feedback model: a new model for applying multi topic domain information to improve pseudo correlation feedback is proposed. The reconfigurable query is composed of the original query, top k and the top s in the multi topic domain. It can effectively improve the retrieval performance of pseudo correlation feedback. This method can be applied to personalized retrieval.
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
2 严华云;刘其平;肖良军;;信息检索中的相关反馈技术综述[J];计算机应用研究;2009年01期
3 王瑞琴;孔繁胜;;基于查询扩展和词义消歧的语义检索[J];情报学报;2010年01期
4 徐建民;崔琰;刘清江;;基于同义词关系改进的局部共现查询扩展[J];情报杂志;2010年09期
5 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
6 黄名选;张师超;严小卫;;基于查询行为和关联规则的相关反馈查询扩展[J];计算机工程;2009年10期
7 万常选;鲁远;;基于用户相关反馈的带结构语义的XML查询词扩展[J];情报学报;2009年03期
8 刘建荣;翟雪荣;赵晓鹏;;基于同义词和关联规则的查询扩展模型[J];福建电脑;2010年05期
9 孟祥娜;秦玉平;;一种基于分类和语义查询扩展的信息检索方法[J];信息技术;2010年09期
10 黄名选;张师超;;一种有效的信息检索模型[J];计算机应用研究;2008年08期
相关会议论文 前10条
1 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
4 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
5 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 吴京慧;余珊珊;王明文;;基于用户日志聚类的查询扩展模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 辽宁 鸣涧;网络常见文件格式[N];电脑报;2001年
2 本报记者 贾婧;书生SEP:全面e化传统纸张[N];科技日报;2006年
3 北京大学 王万平;支持质量保证的协同开发环境[N];中国计算机报;2007年
4 晓蕙;PLM实现精益化管理[N];科技日报;2008年
5 寿栋邋芯语;揭开企业搜索的技术面纱[N];计算机世界;2008年
6 ;打印机:创新不断[N];中国计算机报;2003年
7 记者林秋培;摩托罗拉要做“软件新巨人”[N];中国企业报;2002年
8 孙t;Google股价直奔600美元/股大关[N];第一财经日报;2007年
9 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
10 ;看纽约地铁建设的信息化管理[N];建筑时报;2008年
相关博士学位论文 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
3 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
4 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
6 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
9 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
10 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
相关硕士学位论文 前10条
1 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
2 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
6 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
7 方芳;中文信息检索系统与文档重排技术研究[D];武汉科技大学;2010年
8 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
9 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
10 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
,本文编号:1987267
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1987267.html