当前位置:主页 > 科技论文 > 软件论文 >

历史知识图谱的实体关系挖掘方法

发布时间:2023-05-13 15:23
  随着互联网的不断发展,互联网中数据量也在不断的增多。然而大部分数据以文本的形式存储,如何有效的将数据从文本中抽取出来是一个十分重要问题。实体关系抽取作为信息抽取的关键组成部分,将非结构的自然语言文本结构化,是问答系统和知识图谱等自然语言应用的基础。然而传统关系抽取方法在训练前多需要人工标注数据、选取特征并且定义关系类型需要专业领域的专家辅助,这样消耗大量的人力和时间,所以如何以更少的代价获取实体关系变的尤为重要。为解决以上问题,本文利用远程监督、深度学习、自然语言处理等技术为历史领域的实体关系挖掘设计了两种算法。本文在研究历史实体关系挖掘方法过程中,收集了百度百科、维基百科、课本及通用知识图谱等资源作为历史数据。在历史领域关系挖掘研究中,还没有出现关系类型覆盖率较高的公开数据集,人工预定义关系类型会出现偏差和不全面的问题。针对此问题,本文提出了基于规则匹配的历史实体关系抽取方法,提取非结构文本中的关系指示词,避免了人工预定义关系类型的问题。同时在模型中增加对历史文本的特殊句法处理和Logictic回归模型提高关系三元组抽取准确率。在针对人工标注数据代价高的问题上,利用远程监督的方法自动...

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题来源
    1.2 课题研究背景和意义
    1.3 国内外研究现状
        1.3.1 传统的实体关系抽取方法
        1.3.2 基于深度学习的实体关系抽取方法
    1.4 本文的研究内容
    1.5 本文的章节结构
第2章 数据集构建与关系抽取技术概述
    2.1 引言
    2.2 历史数据集构建
        2.2.1 历史数据统计
        2.2.2 远程监督
        2.2.3 训练数据标注
    2.3 自然语言处理技术
        2.3.1 中文分词
        2.3.2 词性标注
        2.3.3 依存句法分析
    2.4 相关算法介绍
        2.4.1 卷积神经网络
        2.4.2 注意力机制
        2.4.3 Logistic回归
    2.5 本章小结
第3章 基于规则匹配的历史实体关系抽取
    3.1 引言
    3.2 候选关系实体扩展
        3.2.1 候选实体扩展
        3.2.2 候选关系指示词扩展
    3.3 关系元组抽取
        3.3.1 规则定义
        3.3.2 特殊句法处理
    3.4 候选关系元组过滤
    3.5 本章小结
第4章 基于SBAPCNNS的历史实体关系抽取
    4.1 引言
    4.2 基于SDP的句内噪音过滤
    4.3 词向量
        4.3.1 词本身与距离的融合词向量
        4.3.2 BiGRU模型
    4.4 文本特征学习
        4.4.1 卷积层
        4.4.2 池化层
        4.4.3 Attention层
        4.4.4 Softmax层
    4.5 缓解过拟合现象
    4.6 本章小结
第5章 实验结果分析
    5.1 引言
    5.2 常见评价标准
    5.3 基于规则匹配的关系抽取实验分析
        5.3.1 实验对象和设计
        5.3.2 实验结果分析
    5.4 基于SBAPCNNs的关系抽取实验分析
        5.4.1 实验对象和设计
        5.4.2 实验结果分析
    5.5 本章小结
结论
参考文献
致谢



本文编号:3816089

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3816089.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fe907***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com