当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于系统工程文档的领域知识库构建

发布时间:2020-07-11 11:13
【摘要】:近年来,在搜索引擎巨头谷歌推出的"知识图谱"的影响下,国内的众多知名公司纷纷推出了自己的相关产品,如百度公司的"知心搜索"、搜狗公司的"知立方"等。在这样的大背景影响下,各个行业也开始思考构建属于自己的领域知识库,这可以为企业在运营决策上提供全面和智能的支持。本文以HKBZ领域的系统工程文档为语料,融合了领域内的结构化、半结构化、非结构化数据,从而构建了该领域的知识库系统。该系统所涉及的领域知识主要包括文档与文档间关系(包含引用关系和相似关系)、文档与实体间关系、实体与实体间关系以及其他相关知识。本文分析了领域知识库构建方法和当前的研究现状,详细地描述了命名实体识别、实体关系抽取、知识表示这三个知识库构建的基本环节。本文主要有以下三点贡献:(1)在知识库构建的实体关系抽取环节,针对系统工程文档的特点,提出了基于词激活力理论的四种实体对特征向量构造方法,并利用多种分类模型进行实验加以验证分析,依据实验结果得出了最为可靠的特征向量构造方法;(2)在知识库构建的知识表示环节,本文分析比较了多种主流的知识表示方法,为了弥补基于本体概念的知识表示在共享、重用和互操作等方面的不足,提出了一种基于JsonSchema的面向对象知识表示方法;(3)在系统实现环节中,本文设计并实现了一个自动化性强、知识复用率高、查询速度快、命中率高的领域知识库原型系统。此外,本文从全自动化构建领域知识库的角度出发,提出了一套完整的HKBZ领域知识库的构建方案,对其他领域知识库的构建也具有一定的参考价值和指导意义。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP311.52
【图文】:

空间向量模型,向量空间模型,字典,文本


法来对文本问题进行分析和处理时,首先我们需要的解决的问题就是,如何在计逡逑算机中准确地表示出一个文本样本。这里我们先介绍一种运用最为广泛的文本表逡逑示方法,即向量空间模型,也可称为"词袋模型"。基于该模型的文档表示如图2-1逡逑所示。逡逑I??芽邋0逦baseball逡逑逦逦1逦3逦Specs逡逑甲eii*沪?脯哪一I0逦gfBphlCS逡逑Sul3|;??t:邋Need逦I逦...

本文编号:2750329

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2750329.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82534***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com