当前位置:主页 > 社科论文 > 图书档案论文 >

基于概念的信息检索模型研究

发布时间:2020-07-16 23:59
【摘要】:随着互联网的快速普及以及廉价大容量存储设备的不断出现,人类社会已经产生了海量的数字化文档信息。这些数量惊人的数字化文档可谓是人类知识的一个重要的宝库,同时也使得人们越来越依赖信息检索系统来找到所需要的信息。在传统的信息检索模型中,通常使用“词袋”模型来表征文档和查询。然而,人类的自然语言是一个异常复杂的符号系统,词语之间存在包括同义、歧义、语义相关等错综复杂的关系。简单的“词袋”模型忽视了词语之间的丰富的语义关系,远远不能够表征自然语言中所蕴含的复杂的语义信息。 本文中的概念是指描述意义的一个基本单元。人类理解自然语言的过程是一个语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂生理组织所提供的。把和文本主题相关的概念中所蕴含的语义知识融合到文档和查询表征模型将是构建基于语义的信息检索模型的一个途径,这也是本文重点要解决的问题。本文针对基于概念的文本信息检索系统的各个方面进行了系统的研究,包括文本的概念标注的构建、概念的语义表征模型、基于概念的文档和查询模型平滑方法以及基于概念间语义相关性的检索模型。主要研究工作和研究成果概括如下: 一、提出了构建文本的概念标注的方法。根据所处理文本对象的不同,提出了几种不同概念标注方法。针对某些专业领域文档集合,可以直接利用其中专家标注的概念。在通常情况下,文档中没有直接可以利用的概念标注。我们提出了一种利用维基百科文档建立通用概念库,并利用基于排序学习的方法来实现文档的维基百科概念自动标注的方法。另外,中文维基百科的质量和数量均难以满足通用概念库的要求,上面提出基于维基百科概念的方法难以应用于中文文本集,因此我们还提出了一种自动概念抽取的方法为中文文本标注概念。 二、提出了构建概念的语义表征模型的方法。针对不同类型的概念系统,分别提出了不同的解决方法。针对专业辞典中的概念,提出了一种基于互信息的概念表征方法。针对维基百科概念,提出了一种基于混合模型的表征方法和一种基于互信息的概念表征方法。针对中文文本中自动抽取的概念,提出一种基于概念间语义关联度的方法。 三、提出了一种新的基于概念的文档模型平滑方法。通过把概念的语义信息有机的整合到基于“词袋”的文档模型,建立基于语义平滑的文档表征模型。为了验证方法的有效性,在包括专业领域文献和新闻文本的几种标准信息检索测试集上进行了测试。实验表明,相对于传统的语言模型方法,这种方法的检索效果有了显著的提高。 四、提出了一种新的基于概念的查询模型平滑方法。在为查询标注相关概念的过程中,分别提出了两种不同的方法:基于伪相关反馈文档中标注的概念来建立查询的概念表征模型的方法,以及基于交互式信息检索的概念选择的方法。在包括专业领域文献和新闻文本的几种标准信息检索测试集上进行的测试表明,相对于传统的语言模型方法,这种方法的检索效果有了显著的提高,进一步验证了这种方法的有效性。 五、提出了一种利用概念间语义关系的中文检索模型。利用排序学习方法有机地整合包括概念间语义相关度等各种特征项,建立更加有效的信息检索模型。在包含不同来源新闻报道的国际标准中文文本信息检索测试集NTCIR上的三个子集上进行了测试。实验结果表明,相对于传统的基于BM25模型的方法,这种方法的检索效果有了显著的提高。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:G252.7

【相似文献】

相关期刊论文 前10条

1 冯茜芦;潘金贵;;一种基于句子的信息检索模型研究[J];计算机应用与软件;2010年03期

2 吴丹;齐和庆;;信息检索模型及其在跨语言信息检索中的应用进展[J];现代情报;2009年07期

3 杨金龙;曾梦玲;刘千里;;2000年以来我国信息检索模型研究综述[J];图书情报导刊;2019年04期

4 董屹;李佳;王昆鹏;;基于数据前端分析的图书管理信息检索模型[J];科技信息;2013年14期

5 张小芳;;几种常见信息检索模型的分析与评价[J];情报杂志;2008年03期

6 孙坦;周静怡;;近几年来国外信息检索模型研究进展[J];图书馆建设;2008年03期

7 周竹荣;黄果;周亭;;一种混合的文本信息检索模型研究[J];计算机工程与设计;2007年11期

8 金光赫;王兴伟;曲大鹏;蒋定德;;一种基于相关反馈的信息检索模型[J];计算机科学;2012年07期

9 张艳;;信息检索模型的比较研究[J];电脑知识与技术;2009年08期

10 熊忠阳;李春玲;张玉芳;;一种基于领域本体的混合信息检索模型[J];计算机工程;2008年21期

相关会议论文 前10条

1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 黄国斌;王明文;叶浩;;一种新的基于中间语义的跨语言信息检索模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 张文雅;宋大为;赵晓朝;张鹏;李竞飞;;基于可读性的信息检索模型研究[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

5 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年

6 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年

7 普东航;唐常杰;元昌安;廖勇;张天庆;于中华;;一种基于相邻地址的信息检索模型AAM[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

8 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

9 韩咏;齐浩亮;杨沐昀;李生;;基于回归支持向量机的信息检索[A];第五届全国信息检索学术会议论文集[C];2009年

10 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

相关重要报纸文章 前1条

1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年

相关博士学位论文 前10条

1 涂新辉;基于概念的信息检索模型研究[D];华中师范大学;2012年

2 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年

3 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年

4 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年

5 崔金栋;基于本体的网格信息检索模型研究[D];吉林大学;2011年

6 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年

7 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

8 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年

9 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年

10 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年

相关硕士学位论文 前10条

1 马路佳;蒙汉跨语言信息检索模型研究[D];中央民族大学;2018年

2 王天舒;基于量子弱测量理论的信息检索模型[D];天津大学;2018年

3 黄果;文本信息检索模型研究[D];西南大学;2007年

4 张东伟;中英文跨语言信息检索模型研究[D];黑龙江大学;2006年

5 张文雅;基于可读性的信息检索模型研究[D];天津大学;2016年

6 李皓;基于认知观的信息检索模型及实证研究[D];河北大学;2012年

7 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年

8 李春玲;基于领域本体的语义检索研究[D];重庆大学;2008年

9 谢玉宇;基于本体和多Agent的信息检索模型的研究[D];江苏大学;2009年

10 廖亚男;基于多层Markov网络的信息检索模型[D];江西师范大学;2014年



本文编号:2758686

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2758686.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c22b4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com