基于深度学习的中文人物关系抽取研究

发布时间:2023-09-17 17:51
  随着科学技术的不断革新,互联网上的信息正以一种前所未有的速度增长,人类正式进入“大数据”时代。当前互联网上的信息主要以文本的形式存在,面对海量的文本,人们通常无法快速获取有价值的信息,而通过信息抽取技术可以解决这个问题。针对于文本数据,信息抽取技术能够将非结构化信息转化为结构化信息,然后将其以统一的形式集成。关系抽取是信息抽取的核心任务,通过关系抽取可以从文本中识别出实体并抽取实体之间的语义关系,从而用于搜索、问答、推理等上层应用。近年来,人物关系抽取成为业界的研究热点之一,该任务将实体类型限定为人物,从文本中识别出人物实体并建立人物之间的语义关系,进而构建人物关系网络,该网络可用于人物关系展示、人际关系挖掘、社交网络分析等应用。目前已经有一些学者进行了中文人物关系抽取的相关研究,但仍然存在两类不足。一是公开的中文人物关系抽取标注数据集匮乏,难以获得大量的中文标注语料,目前常用的方法是通过远程监督的方式来自动构建大量标注数据集,虽然这种方法能解决标注问题,但也会引入大量的噪声数据,降低人物关系抽取任务的性能。二是当前中文人物关系抽取任务大多采用传统机器学习的方法,导致模型过度依赖特征工...

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
1 研究概述
    1.1 选题背景及意义
    1.2 研究现状及不足
    1.3 本文研究内容及主要贡献
    1.4 论文组织结构
2 基础知识及相关工作
    2.1 基础知识
        2.1.1 中文分词
        2.1.2 词向量
        2.1.3 注意力机制
        2.1.4 深度学习其他相关技术
    2.2 关系抽取相关工作
    2.3 远程监督相关工作
    2.4 去噪研究相关工作
    2.5 本章小结
3 数据采集与预处理
    3.1 中文语料获取与预处理
        3.1.1 数据来源介绍
        3.1.2 中文语料获取流程
        3.1.3 中文语料预处理
    3.2 远程监督标注流程
    3.3 数据集分布情况
    3.4 本章小结
4 基于深度学习的中文人物关系抽取
    4.1 卷积神经网络模型
    4.2 基于分段的卷积神经网络模型
    4.3 基于注意力机制的双向长短期记忆网络模型
        4.3.1 循环神经网络与长短期记忆网络
        4.3.2 基于注意力机制的双向长短期记忆网络模型
    4.4 实验设计与结果分析
        4.4.1 实验数据与评价指标
        4.4.2 实验环境与参数设置
        4.4.3 实验设计与结果分析
    4.5 本章小结
5 基于深度学习的中文人物关系抽取模型优化
    5.1 基于阅读理解模型的去噪方法
        5.1.1 阅读理解模型介绍
        5.1.2 BERT模型原理
        5.1.3 基于BERT的阅读理解模型
    5.2 基于多分类器投票的优化方法
        5.2.1 集成学习概述
        5.2.2 相关性分析
        5.2.3 多分类器投票流程
        5.2.4 多分类器投票优化
    5.3 实验设计与结果分析
        5.3.1 实验数据与评价指标
        5.3.2 实验环境与参数设置
        5.3.3 实验设计与结果分析
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢



本文编号:3847866

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3847866.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a811***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com