当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于概念语义空间的语义查询扩展技术研究

发布时间:2018-02-23 07:27

  本文关键词: 查询扩展 语义空间 观察窗口 加权 平均倒数排名 出处:《河南科技大学》2012年硕士论文 论文类型:学位论文


【摘要】:随着互联网的发展及社会信息化的发展,信息呈爆炸式增长,人们对信息获取的要求越来越高,不断推动信息检索技术的发展。当前主流商用搜索引擎仍然采用基于关键词查找的方式。这种查找方式在给用户提供一种简便查询平台的同时,也给人们返回了大量与查询意愿无关的垃圾结果。因此,有学者提出使用查询扩展的方法来解决这个问题。 查询扩展是在原查询词的基础上加入相似或相关的词以克服自然语言的“二义性”问题,改进查询意愿的描述。传统的查询扩展技术虽然在技术上有不断的改进,但是仍然以单个查询词为中心进行扩展,忽略了查询概念语义之间的关联扩展,因而没有充分表达和扩展出用户查询意图。近年来,语义概念查询扩展成为新的热点,就是在语义词典/领域本体的基础上构建概念语义空间,从概念语义空间中提取查询语义及其语义关联,实现语义概念扩展。这种扩展在一定意义上实现了语义层次的扩展,但过于依赖完备的语义体系,导致许多与用户查询意愿不相关的词的加入,从而容易出现查询漂移的问题。 针对现有查询扩展存在扩展词质量不高的问题,本课题在前人研究成果的基础上,利用语义词典和文档集两种扩展源,在语义空间的基础上引入统计模型对查询词进行扩展。本文的研究工作主要包括以下几个方面: 1.语义词典、领域本体等知识体系已经成为智能化信息检索不可或缺的支撑工具。在传统构建语义森林的基础上,提出了向上溯源查找最近公共祖先结点的方法,构建出覆盖面全、冗余度低,结构合理的概念语义空间; 2.在对查询扩展进行范围控制的过程中,本课题提出了动态观察窗口加权模型,用于强化共现词之间的关联度。在大规模文档集中使用动态观察窗口加权模型对初始查询扩展词进行训练,动态设定显著性阈值,筛选出最终的查询扩展词; 3.最后,本课题利用文本检索会议TREC(Text REtrieval Conference)提供的测试数据集设计并实现了实验系统,将实验结果转化为相应的算法测评指标MRR(平均倒数排名),,通过对比可得,本课题提出的结合概念语义空间与动态观察窗口加权模型的扩展算法比传统伪相关反馈法的扩展效果有了较大的提高,从而提高了信息检索质量。 本课题实验数据使用TREC(2005)会议的FR (Federal Register)部分,总计395M。这些数据中包括待检索文档56110篇,原始的查询文本50条与50条原始查询文本对应的目标文档号。所有实验数据均为来自TREC会议的标准数据集,从而保证了实验的客观性。
[Abstract]:With the development of the Internet and the development of social information, the information is increasing explosively. Promote the development of information retrieval technology. Currently, the mainstream commercial search engines still use keyword lookup. This search method provides users with a simple query platform at the same time, It also returns a large number of garbage results which are independent of the query intention. Therefore, some scholars have proposed to solve this problem by using query expansion method. Query expansion is to add similar or related words to the original query words in order to overcome the ambiguity of natural language and improve the description of query will. However, the extension is still centered on a single query word, neglecting the relational extension between query concepts, so the user query intention is not fully expressed and extended. In recent years, semantic concept query extension has become a new hotspot. It is based on semantic dictionary / domain ontology to construct concept semantic space, extract query semantics and semantic association from concept semantic space, and realize semantic concept extension. However, relying too much on the complete semantic system leads to the addition of many words which are not related to the user's will to query, which is prone to the problem of query drift. In order to solve the problem that the quality of extension words is not high in the existing query expansion, based on the previous research results, this paper uses semantic dictionary and document set two extension sources. On the basis of semantic space, the statistical model is introduced to extend the query words. The research work in this paper mainly includes the following aspects:. 1. Semantic dictionary, domain ontology and other knowledge systems have become indispensable support tools for intelligent information retrieval. The concept semantic space with complete coverage, low redundancy and reasonable structure is constructed. 2. In the process of controlling the scope of query expansion, a dynamic observation window weighted model is proposed. It is used to strengthen the correlation degree between co-occurrence words. The dynamic observation window weighting model is used to train the initial query extension words in the large-scale document set the significant threshold dynamically and screen out the final query extension words. 3. Finally, the experiment system is designed and implemented by using the test data set provided by the text retrieval conference TREC(Text REtrieval Conference. The experimental results are transformed into the corresponding algorithm evaluation index (MRR), which can be obtained by comparison. The extended algorithm based on the concept semantic space and the dynamic observation window weighted model is more effective than the traditional pseudo-correlation feedback method, which improves the quality of information retrieval. In this paper, the experimental data are used in the FR / Federal Register section of the TREC-2005) conference, and a total of 395M.These data include 56110 documents to be retrieved, All experimental data are standard data set from TREC conference, which ensures the objectivity of the experiment.
【学位授予单位】:河南科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 黄名选;马瑞兴;兰慧红;;面向查询扩展的特征词频繁项集挖掘算法[J];现代图书情报技术;2011年04期

2 王水利;黄广君;霍亚格;;基于语义分析的查询扩展方法[J];计算机工程;2011年16期

3 黄名选;朱家安;陈燕红;;面向查询扩展的词间正负关联规则挖掘算法[J];计算机工程与应用;2011年26期

4 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期

5 黄名选;朱家安;冯平;;基于正负关联规则融合的信息检索模型[J];情报理论与实践;2011年07期

6 周书锋;陈杰;;基于本体的概念语义相似度计算[J];情报杂志;2011年S1期

7 张晓孪;王西锋;;基于本体和相似图的概念语义相似度计算[J];计算机技术与发展;2011年08期

8 顾小林;卞艺杰;浦徐进;;基于改进KS方法的食品安全追溯信息检索模型[J];软科学;2011年08期

9 王晓春;李慧;;面向教育的垂直搜索引擎框架及其应用[J];电化教育研究;2011年09期

10 陈振标;;基于本体的语义检索技术研究[J];情报探索;2011年08期

相关会议论文 前10条

1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年

2 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

3 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

4 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

7 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年

8 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年

9 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年

10 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年

相关重要报纸文章 前1条

1 彭遂莅 李涛;成都公开保险营销员信用信息[N];中国保险报;2011年

相关博士学位论文 前10条

1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年

3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年

4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

5 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年

6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年

7 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年

8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年

9 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年

10 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年

相关硕士学位论文 前10条

1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年

2 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年

3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年

4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年

5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年

6 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年

7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年

9 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年

10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年



本文编号:1526455

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1526455.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户647e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com