基于本体的语义索引技术研究
本文关键词:基于本体的语义索引技术研究
更多相关文章: 语义索引 本体概念树 本体 索引分类 向量空间模型
【摘要】:随着互联网数据的海量增长,尽管用户可以借助搜索引擎获取信息,但是越来越难准确获取到自己想要的数据。借助搜索引擎获取数据的方法是,搜索引擎在互联网上抓取数据,为抓来的数据建立索引,在用户需要时根据用户输入的查询语句查询索引,配对后返回结果。索引扮演了重要角色。传统的索引是基于词汇的,缺乏语义,由于一词多义和多词一义等情况,使得查询结果的准确率和召回率不尽人意。为解决这些问题,不少学者提出很多解决方案,如隐语义索引、文本标引等。但是,这些方法零散,缺乏完整的整体思想。为此作者提出一个整体方案:先将倒排索引根据关键字对应的概念分类,生成概念索引。另外设计一套概念索引的存储机制。具体如下:首先获取传统的倒排索引,建立词项和网页文档的映射关系(词项→网页表)。然后对其深度加工,通过词项-实体表获取词项对应的概念列表。通过空间向量模型获取概念列表的特征向量矩阵和网页表各网页的特征项,并且对网页特征进行降维处理,生成网页列表的特征向量矩阵。计算概念列表的特征向量矩阵和网页列表网页的特征向量矩阵的相关性,分析结果,获取各概念和各网页的相关性,然后将网页划分到最相关的概念分类下,形成概念索引记录(概念→网页表)。最后合并相同概念索引记录,形成完整的语义倒排文件。逻辑上解决了语义索引问题。接下去的问题是语义索引的物理存储管理问题。如果采用顺序存储的方式,这个对于查询效率来说是不可忍受的,所以需要设计一种良好的存储结构组织,加快其检索效率。为了解决这个问题,本文为语义索引设计了一套存储数据结构--语义索引树。它是通过结合本体概念的“is-a”关系建立的本体概念树和概念索引而建立的。语义索引树由三部分组成:本体概念树、实例-索引表和语义倒排文件。它将概念索引文件根据概念分成很多个小的概念索引文件,通过查询这棵树,可以迅速地定位到小的语义倒排文件。作者的主要贡献是:1.提出和设计了语义索引获取的方法,给出了相应算法。实验证明其获取效果准确率有了很大的提高。2.设计了语义索引的存储结构,实验证明其平均查询效率高,相较其他的索引效率也有很大的优势。
【关键词】:语义索引 本体概念树 本体 索引分类 向量空间模型
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要6-8
- ABSTRACT8-12
- 图表目录12-13
- 第一章 绪论13-17
- 1.1 研究背景及意义13-14
- 1.2 国内外研究现状14-15
- 1.3 论文研究内容15-16
- 1.4 文章组织结构16-17
- 第二章 相关工作17-25
- 2.1 隐语义索引17-18
- 2.2 语义标记索引18
- 2.3 本体介绍18-19
- 2.4 分类算法19-21
- 2.4.1 K-近邻算法20
- 2.4.2 支持向量机20
- 2.4.3 Two-Stage分类算法20-21
- 2.5 倒排索引21-23
- 2.6 相关性计算算法23-24
- 2.7 本章小结24-25
- 第三章 分类倒排索引算法25-36
- 3.1 算法简介25-26
- 3.2 算法详细介绍26-32
- 3.2.1 倒排索引结构说明27-28
- 3.2.2 概念集合特征矩阵提取28-29
- 3.2.3 Web网页集特征矩阵提取29-30
- 3.2.4 概念和文档相似度计算30-31
- 3.2.5 将分类的索引按照概念组合31-32
- 3.3 举例32-33
- 3.4 Two-Stage分类算法和VSM倒排索引分类算法实验结果对比33-35
- 3.5 本章小结35-36
- 第四章 语义索引结构设计36-48
- 4.1 本体概念树38-40
- 4.1.1 本体树形存储结构38-39
- 4.1.2 本体概念树结点结构39-40
- 4.2 索引结构40-41
- 4.3 语义索引算法41-43
- 4.4 语义索引结构设计过程43-45
- 4.5 语义倒排索引查询效率实验45-47
- 4.6 本章小结47-48
- 第五章 语义搜索系统总体设计48-57
- 5.1 系统整体架构48-49
- 5.2 系统详细介绍49-55
- 5.2.1 数据抓取模块50-51
- 5.2.2 倒排索引模块51-52
- 5.2.3 知识支持系统52-54
- 5.2.4 索引改造模块54
- 5.2.5 语义索引模块54
- 5.2.6 用户模块54-55
- 5.2.7 语言处理模块55
- 5.3 其他组件55-56
- 5.3.1 中文分词55-56
- 5.3.2 词义排歧模块56
- 5.4 本章小结56-57
- 第六章 结语57-59
- 6.1 总结57
- 6.2 未来工作展望57-59
- 参考文献59-62
- 附录 作者攻读硕士学位期间发表的文章62-63
- 致谢63
【相似文献】
中国期刊全文数据库 前10条
1 ;本期广告商索引表[J];电子与电脑;2000年01期
2 ;本期编辑内容产品索引表[J];电子与电脑;2000年02期
3 ;本期广告商索引表[J];电子与电脑;2000年02期
4 ;本期编辑内容产品索引表[J];电子与电脑;2000年04期
5 ;本期广告商索引表[J];电子与电脑;2000年04期
6 ;本期编辑内容产品索引表[J];电子与电脑;2000年11期
7 ;本期广告商索引表[J];电子与电脑;2000年11期
8 涂建国;索引工作刍议[J];图书馆;1996年04期
9 ;本期编辑内容产品索引表[J];电子与电脑;1999年05期
10 ;本期编辑内容产品索引表[J];电子与电脑;1999年08期
中国重要会议论文全文数据库 前10条
1 石玮峰;杨冬青;唐世渭;关涛;;COBASE的索引管理技术[A];第十二届全国数据库学术会议论文集[C];1994年
2 王彦祥;王广林;;“索引之星”的研制和索引编制[A];2004年辞书与数字化研讨会论文集[C];2004年
3 王晓辉;王柏;;通过有效使用索引优化Oracle应用系统性能[A];第九届全国青年通信学术会议论文集[C];2004年
4 孙云峰;陈渝;史元春;张宝鹏;张曦;江文峰;;基于高精度室内定位系统的移动物体轨迹索引[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
5 王先胜;乔健;汪卫;何震瀛;;AX-Tree:基于RDBMS的粒度自适应XML数据索引[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 邵雄凯;卢炎生;程学先;;用建立本地广播索引表的方法改善移动客户机的性能[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 杨彬;洪晓光;;基于XML大文档的动态索引[A];’2004计算机应用技术交流会议论文集[C];2004年
10 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
中国重要报纸全文数据库 前1条
1 裘宗燕;轻松做索引[N];中华读书报;2002年
中国博士学位论文全文数据库 前3条
1 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年
2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
3 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 王健;DWMS中索引选择策略的研究与实现[D];东华大学;2010年
2 胡玉乐;列存储DWMS中的索引关键技术研究[D];东华大学;2011年
3 张慧;一种基于位立方体的XML索引方式[D];山东大学;2007年
4 王学;面向SaaS应用交付平台的多租户数据索引研究[D];山东大学;2012年
5 石有滴;XML索引关键技术研究[D];华南理工大学;2011年
6 张雁;面向全文检索的在线索引关键技术研究[D];哈尔滨工业大学;2010年
7 陈坚强;DB2数据库索引性能调整与优化[D];上海交通大学;2011年
8 葛付江;面向动态文档集的大规模文本索引构建技术的研究[D];哈尔滨工业大学;2008年
9 刘亦韬;基于压缩全文自索引的分布式索引技术研究[D];杭州电子科技大学;2015年
10 肖袁;基于索引的XML查询技术研究[D];南京师范大学;2007年
,本文编号:1060631
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1060631.html