面向新闻文本的实体关系抽取研究

发布时间:2021-01-25 21:38
  新闻文本中信息蕴含价值大,因此从其中提取信息有重大实用价值。但是新闻数量大,增长迅速,依靠人工处理提取信息耗时费力。实体识别和关系抽取技术可以实现自动化识别新闻实体,提取实体关系,为后续深入分析提供可能。首先新闻具有客观、严肃的特性,因此用词少见情感倾向词汇;其次新闻中会频繁出现特定词汇代表特定组织机构;最后新闻的句子中可能包含很多不同类型实体且这些实体对之间有不同关系类型。为应对新闻文本特征,本文构建深度学习模型尝试从海量新闻文本中识别出新闻实体以及抽取实体之间的关系,以便快速了解新闻重点,加快信息获取效率。本文提出实体识别模型ER-Mul ATT model,此模型把实体识别转化为句子级别的序列标注任务。首先从语料中获得词向量,引入词的字符级向量来表示词的大小写和缩写等词的字符特征;然后使用BiLSTM提取出词的上下文依赖特征,利用自注意力机制来获取词的全局相关特征,解决远距离相关信息缺失的问题;最后使用CRF来获取标签序列。本文提出实体关系抽取模型RE-BiGCN model,此模型把实体关系抽取转化为句子级的分类问题。首先使用词向量、词性特征向量、实体标识向量和经过Char B... 

【文章来源】: 周星瀚 武汉邮电科学研究院

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景
    1.2 研究目的及意义
        1.2.1 研究目的
        1.2.2 研究意义
    1.3 研究现状
        1.3.1 命名实体识别的研究现状
        1.3.2 实体关系抽取研究现状
    1.4 研究内容
    1.5 论文结构
2 相关理论和技术
    2.1 图卷积神经网络
    2.2 循环神经网络
        2.2.1 长短时记忆网络
        2.2.2 双向长短时记忆网络
    2.3 条件随机场
    2.4 词向量
        2.4.1 词表示方法
        2.4.2 词向量表示方法
    2.5 注意力机制
    2.6 本章小结
3 新闻文本的实体识别研究
    3.1 中英文语言差异
    3.2 英文新闻文本的特点
    3.3 实体识别模型结构
    3.4 实体识别模型特点
        3.4.1 特征抽取模块
        3.4.2 Mul ATT模块
        3.4.3 BiLSTM模块
        3.4.4 CRF模块
    3.5 模型优化算法
    3.6 英文新闻文本数据集构建
        3.6.1 数据集来源
        3.6.2 数据集清洗
        3.6.3 数据集预处理
        3.6.4 数据集标注
        3.6.5 实验对比数据集
    3.7 实验设置
        3.7.1 实验环境设置
        3.7.2 实验评估指标
    3.8新闻实体识别实验
        3.8.1 实验参数的设置
        3.8.2 对比模型特点
        3.8.3 实体识别结果分析
        3.8.4 模块有效性对比
        3.8.5 不同应用领域的模型性能对比
    3.9 本章小结
4 新闻文本的实体关系抽取研究
    4.1 实体关系抽取模型结构
    4.2 实体关系抽取模型特点
        4.2.1 特征向量模块
        4.2.2 syntactic BiGCN模块
    4.3 模型优化算法
    4.4 数据集预处理
    4.5新闻实体关系抽取实验
        4.5.1 实验参数的设置
        4.5.2 对比模型特点
        4.5.3 实体抽取结果分析
        4.5.4 模块有效性对比
        4.5.5 不同应用领域的模型性能对比
    4.6 本章小结
5 总结与展望
    5.1 论文结论
    5.2 未来展望
参考文献
致谢
附录1 攻读硕士期间参与项目和发表的论文


【参考文献】:
期刊论文
[1]基于CNN和双向LSTM融合的实体关系抽取[J]. 张晓斌,陈福才,黄瑞阳.  网络与信息安全学报. 2018(09)
[2]基于多分类SVM-KNN的实体关系抽取方法[J]. 刘绍毓,周杰,李弼程,席耀一,唐浩浩.  数据采集与处理. 2015(01)
[3]基于句法语义特征的中文实体关系抽取[J]. 郭喜跃,何婷婷,胡小华,陈前军.  中文信息学报. 2014(06)
[4]基于小规模尾字特征的中文命名实体识别研究[J]. 冯元勇,孙乐,张大鲲,李文波.  电子学报. 2008(09)
[5]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才.  通信学报. 2006(02)



本文编号:2999937

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2999937.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96fe7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com