基于知识图谱的搜索引擎技术研究与应用
发布时间:2017-11-08 01:01
本文关键词:基于知识图谱的搜索引擎技术研究与应用
更多相关文章: 搜索引擎 知识图谱 知识抽取 实体索引 本体库
【摘要】:互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富,尽管这些数据已经被分门别类,但是从成千上万的类别及其子类中检索有效信息对于搜索引擎也是较大的挑战。传统的搜索引擎通过对互联网中的数据进行全文索引,通过关键词匹配索引的方式进行信息检索并返回给用户相关的链接。这种检索方法不能准确理解用户的需求,同时返回的是相关链接而不是用户需要的信息,用户需要从链接的文档中查找相关的信息。为了改善上述传统搜索引擎的弊端,基于知识的搜索引擎引起了研究者和产业界的广泛关注。其主要思想是通过在互联网中进行数据获取,完成数据到知识的转变形成知识网络并提供信息检索功能。本文研究特定领域内的该类型搜索引擎的搭建相关理论及实现方法,希望通过该搜索引擎能够提供特定领域内的实体查询,即通过深度理解用户需求,从实体库中检索出相关实体返回给用户。围绕搭建领域内基于知识图谱的搜索引擎,研究基础搜索引擎框架,网络爬虫,数据索引,知识抽取,图谱模型等关键技术,主要工作包括:(1)提出一种基于本体库的知识抽取方法。通过领域内的本体库,判断从互联网中抓取的数据是否是领域内相关的实体,并从数据中抽取出实体相关的知识碎片,最后融合知识碎片形成领域内的知识。实验证明,这种方法的知识抽取相比传统的基于规则的抽取方法抽取范围更为确定,抽取的知识也较为准确。(2)提出一种基于Lucene的增量索引方法。通过分析Lucene框架以及Lucene的倒排索引和段合并机制,研究Lucene索引实体数据时性能较差的缺点,提出了通过多级索引文件代替索引库的索引方法,实验证明这种方法能够在一定程度上降低实时更新索引库时的耗时且对于检索请求响应更为敏捷。(3)实现了一个“机器学习”领域内的搜索引擎,用来提供相关实体的检索,其中实体主要包括文献,专家,期刊以及领域内相关概念。该搜索引擎以图谱的形式组织领域内的实体以及实体之间的语义网络,不仅提供了信息检索功能,通时提供了更加智能的结果排序以及相关推荐等功能。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;G252.7
【参考文献】
中国期刊全文数据库 前2条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
,本文编号:1154876
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1154876.html