基于百科类语料的语义关系获取研究
发布时间:2021-01-07 20:07
信息抽取是自然语言处理中的一个重要分支,主要包括命名实体识别和语义关系获取等任务,是自然语言处理相关工作的基础。实现信息抽取的传统方式主要分为两种,分别是基于规则的方法和基于统计的方法。其中基于规则的方法一般需要丰富的语言学知识,具有一定的局限性,而基于统计的方法虽然可以拜托对语言学知识的依赖,但是需要大量的人工标注工作,实现难度较高。近年来,深度学习的方法被广泛应用在自然语言处理的各个领域中,深度学习不需要很强的语言学知识和大量的人工标注特征就可以自学习样本特征,在信息抽取领域取得的结果已经超过了很多传统方法。本文经过对基于深度学习的信息抽取研究进行了深入的学习和研究后发现,目前的信息抽取方法还存在以下两点不足:(1)在命名实体识别过程中,一般只考虑每个字或词的上下文信息,对句法信息的关注程度不高,通过研究句法信息来提升命名实体识别模型的性能的研究比较少。(2)在语义关系获取的相关研究中,一般侧重对句子整体的研究,很少关注到句子的局部特征,导致关系获取的效果不理想。针对以上两点不足,本文设计了基于句法分析和深度学习的命名实体识别模型和基于多层注意力机制和双向LSTM网络的语义关系获取...
【文章来源】:江苏科技大学江苏省
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外相关领域研究现状
1.2.1 国内外命名实体识别研究现状
1.2.2 国内外实体关系获取研究现状
1.3 本文的主要工作
1.4 本文的组织结构安排
第2章 关键技术概述
2.1 文本预处理
2.1.1 中文分词技术
2.1.2 停用词处理
2.2 词向量
2.2.1 离散表示
2.2.2 分布式表示
2.2.3 Word2vec
2.3 循环神经网络
2.3.1 长短时记忆神经网络
2.3.2 双向长短时记忆神经网络
2.3.3 门控循环单元
2.4 注意力机制
2.4.1 编码-解码模型
2.4.2 注意力机制
2.5 条件随机场
2.5.1 命名实体识别的标签体系
2.5.2 条件随机场
2.6 本章小结
第3章 基于百科类语料的实体识别方法研究
3.1 数据预处理
3.1.1 数据源的选择
3.1.2 数据获取方法
3.2 句法分析
3.3 基于句法分析与深度学习的实体识别模型
3.3.1 词向量层
3.3.2 句法分析层
3.3.3 双向GRU层
3.3.4 Softmax层
3.3.5 CRF层
3.4 实验结果与分析
3.4.1 实验数据
3.4.2 实验指标评价
3.4.3 参数设置
3.4.4 对比实验分析
3.5 本章小结
第4章 基于多层注意力机制的实体关系抽取方法研究
4.1 融合特征的字向量表示
4.1.1 字向量
4.1.2 位置向量
4.2 注意力机制
4.2.1 字级注意力机制
4.2.2 句级注意力机制
4.3 结果分类
4.4 基于多层注意力机制与双向LSTM的关系获取模型
4.5 结果与分析
4.5.1 实验数据
4.5.2 实验指标评价
4.5.3 参数设置
4.5.4 实验结果分析
4.5.5 对比试验分析
4.6 本章小结
第5章 总结与展望
参考文献
攻读学位期间发表的论文
致谢
中文详细摘要
【参考文献】:
期刊论文
[1]基于CRF与规则相结合的中文电子病历命名实体识别研究[J]. 翟菊叶,陈春燕,张钰,陈玉娥,刘玉文. 包头医学院学报. 2017(11)
[2]基于多通道卷积神经网的实体关系抽取[J]. 肜博辉,付琨,黄宇,王洋. 计算机应用研究. 2017(03)
[3]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[4]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[5]基于树核函数的实体语义关系抽取方法研究[J]. 庄成龙,钱龙华,周国栋. 中文信息学报. 2009(01)
[6]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[7]实体关系自动抽取[J]. 车万翔,刘挺,李生. 中文信息学报. 2005(02)
硕士论文
[1]基于深度学习的命名实体识别研究[D]. 霍振朗.华南理工大学 2018
[2]基于深度学习的中文微博人物关系图谱的研究与实现[D]. 王超.武汉邮电科学研究院 2018
[3]面向《大词林》的中文实体关系挖掘[D]. 刘燊.哈尔滨工业大学 2016
[4]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
本文编号:2963162
【文章来源】:江苏科技大学江苏省
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外相关领域研究现状
1.2.1 国内外命名实体识别研究现状
1.2.2 国内外实体关系获取研究现状
1.3 本文的主要工作
1.4 本文的组织结构安排
第2章 关键技术概述
2.1 文本预处理
2.1.1 中文分词技术
2.1.2 停用词处理
2.2 词向量
2.2.1 离散表示
2.2.2 分布式表示
2.2.3 Word2vec
2.3 循环神经网络
2.3.1 长短时记忆神经网络
2.3.2 双向长短时记忆神经网络
2.3.3 门控循环单元
2.4 注意力机制
2.4.1 编码-解码模型
2.4.2 注意力机制
2.5 条件随机场
2.5.1 命名实体识别的标签体系
2.5.2 条件随机场
2.6 本章小结
第3章 基于百科类语料的实体识别方法研究
3.1 数据预处理
3.1.1 数据源的选择
3.1.2 数据获取方法
3.2 句法分析
3.3 基于句法分析与深度学习的实体识别模型
3.3.1 词向量层
3.3.2 句法分析层
3.3.3 双向GRU层
3.3.4 Softmax层
3.3.5 CRF层
3.4 实验结果与分析
3.4.1 实验数据
3.4.2 实验指标评价
3.4.3 参数设置
3.4.4 对比实验分析
3.5 本章小结
第4章 基于多层注意力机制的实体关系抽取方法研究
4.1 融合特征的字向量表示
4.1.1 字向量
4.1.2 位置向量
4.2 注意力机制
4.2.1 字级注意力机制
4.2.2 句级注意力机制
4.3 结果分类
4.4 基于多层注意力机制与双向LSTM的关系获取模型
4.5 结果与分析
4.5.1 实验数据
4.5.2 实验指标评价
4.5.3 参数设置
4.5.4 实验结果分析
4.5.5 对比试验分析
4.6 本章小结
第5章 总结与展望
参考文献
攻读学位期间发表的论文
致谢
中文详细摘要
【参考文献】:
期刊论文
[1]基于CRF与规则相结合的中文电子病历命名实体识别研究[J]. 翟菊叶,陈春燕,张钰,陈玉娥,刘玉文. 包头医学院学报. 2017(11)
[2]基于多通道卷积神经网的实体关系抽取[J]. 肜博辉,付琨,黄宇,王洋. 计算机应用研究. 2017(03)
[3]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[4]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[5]基于树核函数的实体语义关系抽取方法研究[J]. 庄成龙,钱龙华,周国栋. 中文信息学报. 2009(01)
[6]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[7]实体关系自动抽取[J]. 车万翔,刘挺,李生. 中文信息学报. 2005(02)
硕士论文
[1]基于深度学习的命名实体识别研究[D]. 霍振朗.华南理工大学 2018
[2]基于深度学习的中文微博人物关系图谱的研究与实现[D]. 王超.武汉邮电科学研究院 2018
[3]面向《大词林》的中文实体关系挖掘[D]. 刘燊.哈尔滨工业大学 2016
[4]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
本文编号:2963162
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2963162.html
最近更新
教材专著