基于领域本体和位置关系的检索模型研究
发布时间:2017-09-05 18:04
本文关键词:基于领域本体和位置关系的检索模型研究
更多相关文章: 信息检索 领域本体 相似度 搜索引擎 向量空间模型
【摘要】:互联网信息的飞快增长极大地改变了人们获得信息的方式,面对大量的互联网信息,如何才能够迅速、方便地获得有效信息,逐渐成为人们关注的问题。搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是应用在因特网上的一种软件系统,它以特定的策略在因特网上收集和挖掘信息,然后对信息进行剖析、提取、组织等处理后形成供检索用的检索库。检索模型是搜索引擎的数学基础,它的工作是根据使用者的需求找出相关信息,在这之前需要将信息按照某种特定的方式进行组织。 本体是对共享的概念模型的明确的形式化的规范的说明。它其实是一种特殊的术语集合,具备结构化特征,且更为适用于在计算机系统中使用。领域本体对某个特定领域或客观世界的一部分模型化。在各种信息检索模型中,最常用的是向量空间模型。但是,向量空间模型具有固有的缺点,所以有很多人根据需要对它进行了改进。改进的检索模型虽然取得了一定的效果,但效果仍不明显。在计算查询和文档的相关度时虽然考虑了领域本体或者词义网词典,但是没有将二者结合起来。此外,现有的检索模型也没有考虑查询词项位置特征这一重要因素,查询经过这些检索模型处理后得到的词项便失去了顺序先后关系和相邻关系。 本文的工作和创新主要表现在以下几个方面: (1)收集了软件领域中的各种概念以及概念之间的关系,并用专业术语表达出来,作为软件本体的基本概念集,并按照语义词典的结构来把它们组织成语义关系网络。然后用Protégé手工构造软件领域本体,,作为求概念相似度的一个参考。 (2)通过将两个概念在词义网中关于根据信息理论得到的语义相似度融合到软件领域本体得到的相似度中得到了一种新的相似度算法。 (3)将查询词项的位置关系作为求相关度时考虑的一个因素,提出了词序相关度和词语相邻相关度这两个概念,并对其进行形式化,然后对其进行初步的实现。 (4)在本文构造的软件领域本体以及提出的概念的基础上构建了一个信息检索系统,然后对其进行了实现。实验证明本文提出的检索模型在查准率上有了较大的提高,同时本文提出的领域本体概念相似度计算方法求得的相似度也较为接近经验值。
【关键词】:信息检索 领域本体 相似度 搜索引擎 向量空间模型
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景与意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 国外研究现状11-12
- 1.2.2 国内研究现状12-13
- 1.3 本文课题主要研究内容13
- 1.4 本文结构13-16
- 第2章 基本理论与技术简述16-24
- 2.1 检索模型16
- 2.2 领域本体的定义16-17
- 2.3 领域本体的描述语言17-20
- 2.3.1 RDF 和 RDFS18-19
- 2.3.2 DAML+OIL19
- 2.3.3 OWL19-20
- 2.4 概念相似度20-22
- 2.5 本章小结22-24
- 第3章 领域本体的构造24-36
- 3.1 本体的构造工具24-25
- 3.2 设计目标25-27
- 3.3 数据收集27
- 3.4 数据分析27-30
- 3.5 本体构造30-35
- 3.5.1 建立概念30-32
- 3.5.2 建立属性32-34
- 3.5.3 添加实例34-35
- 3.6 本章小结35-36
- 第4章 关键技术36-42
- 4.1 概念语义相似度计算36-38
- 4.2 位置相似度38
- 4.3 位置关系的实现38-40
- 4.4 最终排序函数及算法40-41
- 4.5 本章小结41-42
- 第5章 系统的设计与实现42-52
- 5.1 系统结构42
- 5.2 基本检索模块42-49
- 5.2.1 相似度计算模块43-45
- 5.2.2 文档集处理模块45-48
- 5.2.3 查询处理模块48
- 5.2.4 打分模块48-49
- 5.3 扩展检索模块49-51
- 5.3.1 查询处理模块50-51
- 5.3.2 文档集处理模块51
- 5.3.3 打分模块51
- 5.4 本章小结51-52
- 第6章 实验验证52-58
- 6.1 实验数据及评价指标52-53
- 6.2 实验结果分析53-56
- 6.3 本章小结56-58
- 结论58-60
- 参考文献60-64
- 攻读硕士学位期间所发表的学术论文64-66
- 致谢66
【参考文献】
中国期刊全文数据库 前4条
1 廖乐健,曹元大,李新颖;基于Ontology的信息抽取[J];计算机工程与应用;2002年23期
2 魏哲雄;冯志勇;;基于字典技术的本体整合系统[J];计算机应用;2007年02期
3 韩美灵;杨勇;;一种面向语义检索的向量空间模型改进方法[J];农业网络信息;2012年10期
4 王梦菊;DC元数据的应用及思考[J];现代情报;2005年08期
本文编号:799459
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/799459.html