当前位置:主页 > 科技论文 > 软件论文 >

基于数据集特征的伪相关反馈中平衡参数自调节方法研究

发布时间:2018-03-13 02:28

  本文选题:信息检索 切入点:伪相关反馈 出处:《天津大学》2016年硕士论文 论文类型:学位论文


【摘要】:随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索是处理海量文本的重要手段。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。面对庞大的文本信息,各种检索模型被相继提出,而其中最有效的一种就是伪相关反馈(PRF)模型。伪相关反馈已经被证明是一种有效提高文本检索性能的方法,并且被广泛使用。对于伪相关反馈来讲,如何选择原始查询与扩展查询词之间的平衡参数是一项重要但却困难的工作。传统方法中,平衡参数在不同的数据集和不同的查询词中通常被设置成相同的经验值。然而由于数据集之间、查询词之间都各不相同,为了提升检索效果,该平衡参数应该有所不同。近期有研究提出了基于机器学习的方法,通过分析基于查询词和反馈文档的特征来预测该平衡参数。本文中,考虑到数据集的差异同样会影响到平衡参数的选择,我们提出了基于数据集的三类特征,包括查询词的信息含量,反馈文档和扩展词的可靠性。本文基于上述三大类特征,通过逻辑回归和交叉验证的方法,自适应的预测伪相关反馈中的平衡参数。首先分析了研究背景意义、国内外研究现状以及主要探究内容;接着介绍了文本信息检索、检索模型等信息检索的相关知识;之后详细介绍了伪相关反馈的相关技术;在详细描述了三大类特征之后,介绍了整个实验的流程以及实验结果。实验结果表明我们提出的方法与之前的研究相比,在提高检索性能方面有着一定的优势。
[Abstract]:With the rapid development of Internet technology, the number of online texts has increased exponentially. How to effectively retrieve these massive information has become an important research topic at present. Text information retrieval is an important means to deal with massive text. Text information retrieval refers to finding out from a large number of document sets related to a given query request. Appropriate number of document subsets. In the face of large text information, various retrieval models have been proposed one after another. One of the most effective is the pseudo-correlation feedback (PRF) model, which has been proved to be an effective method to improve the performance of text retrieval and is widely used. How to select the balance parameters between the original query and the extended query is an important but difficult task. The balance parameter is usually set to the same empirical value in different data sets and different query terms. However, because the query terms differ from one data set to another, in order to improve the retrieval effect, This balance parameter should be different. Recently, a machine learning based approach has been proposed to predict the balance parameter by analyzing the features of query words and feedback documents. Considering that differences in data sets also affect the selection of equilibrium parameters, we propose three types of features based on data sets, including the information content of query words, the reliability of feedback documents and extension words. Through the methods of logical regression and cross validation, the equilibrium parameters in pseudo-correlation feedback are predicted adaptively. Firstly, the significance of the research background, the current research situation at home and abroad and the main contents of the research are analyzed, and then the text information retrieval is introduced. The related knowledge of information retrieval, such as retrieval model, and the related technology of pseudo-correlation feedback are introduced in detail. After describing the three kinds of features in detail, The experimental results show that the proposed method has some advantages in improving retrieval performance compared with previous research.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 严凤斌;邰海军;李会刚;;标准数据集合的分析与设计[J];科技广场;2010年01期

2 董璇;蔡立军;;基于不平衡类数据集分类的空间插值方法[J];计算机仿真;2012年12期

3 张诤;王惠文;;大规模复杂数据集的约简方法[J];计算机工程;2010年23期

4 ;拒绝数字化[J];每周电脑报;1999年03期

5 吕海燕;李华伟;吕红;方霞;;元数据注册系统中数据集分类在卫生信息系统中的应用[J];计算技术与自动化;2011年03期

6 顾静秋;吴华瑞;朱华吉;;数据集浓缩研究综述[J];计算机应用与软件;2012年10期

7 赵成龙;陈乐义;张冉;李红;;一种快速有效处理数据集分类问题的新算法[J];山东科技大学学报(自然科学版);2006年04期

8 张宏基;李文中;陆桑璐;;基于异步信息的匿名移动数据集的用户身份识别[J];计算机科学;2013年11期

9 李芳芳;田志军;;数据库快速查询方法研究与应用[J];微电子学与计算机;2012年03期

10 赵国强;王会进;;一种用于大规模数据集的决策树采样策略[J];微型机与应用;2010年21期

相关会议论文 前10条

1 许晓峰;金澈清;高明;周傲英;;面向大型数据集合的关键分类查找算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 马垣;崔丽;刘鸿雁;梁材;;关系中的概念与命题[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

3 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

4 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年

5 卢建松;曹庆华;傅翠娇;;探究Delphi平台下处理.NET Web Service返回数据集的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

6 张路;袁晓洁;刘芳;窦志成;;大规模数据集的分布式索引机制研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

7 于爱荣;刘晓明;曹雷;王俊;;NET Web Services数据集在Delphi中的处理与研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年

8 王加阳;;动态约简抽样分析[A];2006年全国理论计算机科学学术年会论文集[C];2006年

9 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年

10 闫昱;何守才;;Web信息检索中的超连接分析[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前5条

1 李开鹏 温德成;SPSS:质量信息管理的助手[N];中国质量报;2005年

2 记者 王慧 实习生 阿柔娜;首府专利信息检索对外开放日活动首次开启[N];呼和浩特日报(汉);2010年

3 朱华顺 东莞理工学院图书馆馆员;高校“信息检索”课:培养读者以最少时间和精力获取信息[N];中国图书商报;2013年

4 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年

5 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年

相关博士学位论文 前10条

1 王海涛;基于大规模文本数据集的相似检测关键技术研究[D];吉林大学;2016年

2 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年

3 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年

4 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年

5 于澝;基于一维SOM神经网络的聚类及数据分析方法研究[D];天津大学;2009年

6 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年

7 花妍;具有语义一致性的跨模态关联学习与信息检索[D];北京邮电大学;2015年

8 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年

9 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年

10 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年

相关硕士学位论文 前10条

1 孟烨;基于数据集特征的伪相关反馈中平衡参数自调节方法研究[D];天津大学;2016年

2 李建勋;基于模糊聚类分析的数据异常知识发现方法[D];哈尔滨工业大学;2015年

3 俞闯;半监督学习中不平衡数据集分类研究[D];大连理工大学;2015年

4 周维洁;基于智能手机的车辆弯道识别与相对定位的研究[D];黑龙江大学;2015年

5 杨宝栓;基于显露模式的早期网瘾行为检测模型的研究与实现[D];东北大学;2013年

6 邹珈璇;一种RDF数据集的摘要工具的设计与实现[D];南京大学;2013年

7 李悦;大规模数据集关联关系并行发现与优化方法研究[D];北方工业大学;2016年

8 王跃;基于迁移学习的半监督聚类及其并行化实现[D];西南交通大学;2016年

9 孙子川;微博垃圾博主的行为分析与检测[D];西南交通大学;2016年

10 肖雪平;面向大规模数据集的自适应聚类算法并行化研究[D];曲阜师范大学;2016年



本文编号:1604416

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1604416.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户65968***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com