基于Bi-LSTM的汉语自动语义角色标注研究
发布时间:2022-08-12 12:45
随着计算机技术的迅速发展以及大数据时代数据量的爆炸式增长,人们寻求对信息进行准确、快速且全面的获取与处理变的越来越困难,尤其是文本形式的信息。目前汉语自动语义角色标注方法已经有了很多的研究成果,但是仍有很多具有挑战性的问题亟待解决。通过深入探讨现有的语义角色标注模型,本文主要从数据预处理、特征向量和序列标注算法三个方面进行了研究。本文所做的主要工作如下:1.对稀疏谓语和常见谓语存在训练样本不均衡的问题进行深入研究,提出语义密度聚类概念。为了提升模型输入向量的多特征表示能力,提出“模糊”机制,利用词向量距离的概念对非谓语词向量进行“模糊化”操作,改变了原始词向量的语义表达特性。以汉语命题语料库作为实验材料,在基于Bi-LSTM-CRF框架的汉语自动语义角色标注模型上进行多维度、多角度的对比实验,结果表明该方法能取得较好的语义角色标注性能。2.针对辅助特征对于语义角色标注的结果具有较大影响的事实,构造并训练了一个Bi-LSTM网络层来用于获取词性特征的表达,训练得到的词性特征表达作为模型输入向量的一部分组成向量;结合词向量与领域词典,引入六个有效统计特征,利用CRF模型实现领域术语识别,对...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题的研究背景与意义
1.2 国内外研究现状
1.2.1 循环神经网络及改进模型
1.2.2 汉语语义角色标注研究现状
1.3 汉语语义角色标注的研究难点
1.4 论文的主要贡献与组织结构安排
第2章 相关技术和理论知识
2.1 LSTM和 Bi-LSTM网络
2.2 序列标注算法
2.2.1 条件随机场
2.2.2 结构化支持向量机
2.2.3 最大间隔马尔可夫网
2.3 词向量模型
2.3.1 CBOW模型
2.3.2 Glove模型
2.4 实验语料及语义角色标注理论
2.4.1 主要实验语料及标注集
2.4.2 语义角色标注方法
2.4.3 评价方法
2.5 本章小结
第3章 基于“模糊”机制和语义密度聚类的汉语自动语义角色标注
3.1 引言
3.2 语义密度聚类
3.3 词向量“模糊”机制
3.4 基于“模糊”机制和语义密度聚类的汉语语义角色标注模型
3.4.1 整体模型设计
3.4.2 模型网络层的构建和训练
3.5 实验结果与算法性能分析
3.5.1 实验数据
3.5.2 模型参数实验对比
3.5.3 不同词向量实验对比
3.5.4 不同标注体系及优化器实验对比
3.5.5 语义密度聚类与模糊机制实验对比
3.5.6 与其他模型实验对比
3.6 本章小结
第4章 融合领域信息和词性信息的汉语自动语义角色标注研究
4.1 引言
4.2 领域术语识别
4.3 词性特征向量模型的构建与训练
4.4 融合领域信息和词性信息的汉语语义角色标注
4.4.1 输入向量的构建
4.4.2 语义角色标注模型的构建及训练
4.5 实验结果与性能分析
4.5.1 实验语料
4.5.2 词性向量训练模型
4.5.3 领域术语识别结果
4.5.4特征有效性实验
4.5.5 与其他模型的比较
4.6 本章小结
第5章 一种融合多类别分类器的序列标注算法
5.1 引言
5.2 序列标注模型
5.3 实验结果与分析
5.3.1 实验语料
5.3.2 中文分词性能评估
5.3.3 词性标注性能评估
5.3.4 自动语义标注性能评估
5.4 本章小结
总结和展望
参考文献
致谢
附录 A 攻读硕士学位期间所发表的学术论文
【参考文献】:
期刊论文
[1]基于图模型的中文多谓词语义角色标注方法[J]. 杨海彤. 计算机工程. 2019(01)
[2]基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J]. 姚茂建,李晗静,吕会华,姚登峰. 现代电子技术. 2019(01)
[3]基于CNN和B-LSTM的文本处理模型研究[J]. 陈欣,于俊洋,赵媛媛. 轻工学报. 2018(05)
[4]《同义词词林》的嵌入表示与应用评估[J]. 段宇光,刘扬,俞士汶. 厦门大学学报(自然科学版). 2018(06)
[5]结合短语结构句法的语义角色标注[J]. 杨凤玲,周俏丽,蔡东风,季铎. 中文信息学报. 2018(06)
[6]基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注[J]. 张苗苗,张玉洁,刘明童,徐金安,陈钰枫. 计算机与现代化. 2018(04)
[7]基于句式与句模对应规则的语义角色标注[J]. 何保荣,邱立坤,孙盼盼. 中文信息学报. 2018(04)
[8]利用配价信息的语义角色标注[J]. 袁里驰. 电子学报. 2017(10)
[9]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[10]基于神经网络的文本表示模型新方法[J]. 曾谁飞,张笑燕,杜晓峰,陆天波. 通信学报. 2017(04)
硕士论文
[1]基于字符级卷积神经网络的中文文本分类研究[D]. 刘坤.沈阳工业大学 2018
本文编号:3675904
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题的研究背景与意义
1.2 国内外研究现状
1.2.1 循环神经网络及改进模型
1.2.2 汉语语义角色标注研究现状
1.3 汉语语义角色标注的研究难点
1.4 论文的主要贡献与组织结构安排
第2章 相关技术和理论知识
2.1 LSTM和 Bi-LSTM网络
2.2 序列标注算法
2.2.1 条件随机场
2.2.2 结构化支持向量机
2.2.3 最大间隔马尔可夫网
2.3 词向量模型
2.3.1 CBOW模型
2.3.2 Glove模型
2.4 实验语料及语义角色标注理论
2.4.1 主要实验语料及标注集
2.4.2 语义角色标注方法
2.4.3 评价方法
2.5 本章小结
第3章 基于“模糊”机制和语义密度聚类的汉语自动语义角色标注
3.1 引言
3.2 语义密度聚类
3.3 词向量“模糊”机制
3.4 基于“模糊”机制和语义密度聚类的汉语语义角色标注模型
3.4.1 整体模型设计
3.4.2 模型网络层的构建和训练
3.5 实验结果与算法性能分析
3.5.1 实验数据
3.5.2 模型参数实验对比
3.5.3 不同词向量实验对比
3.5.4 不同标注体系及优化器实验对比
3.5.5 语义密度聚类与模糊机制实验对比
3.5.6 与其他模型实验对比
3.6 本章小结
第4章 融合领域信息和词性信息的汉语自动语义角色标注研究
4.1 引言
4.2 领域术语识别
4.3 词性特征向量模型的构建与训练
4.4 融合领域信息和词性信息的汉语语义角色标注
4.4.1 输入向量的构建
4.4.2 语义角色标注模型的构建及训练
4.5 实验结果与性能分析
4.5.1 实验语料
4.5.2 词性向量训练模型
4.5.3 领域术语识别结果
4.5.4特征有效性实验
4.5.5 与其他模型的比较
4.6 本章小结
第5章 一种融合多类别分类器的序列标注算法
5.1 引言
5.2 序列标注模型
5.3 实验结果与分析
5.3.1 实验语料
5.3.2 中文分词性能评估
5.3.3 词性标注性能评估
5.3.4 自动语义标注性能评估
5.4 本章小结
总结和展望
参考文献
致谢
附录 A 攻读硕士学位期间所发表的学术论文
【参考文献】:
期刊论文
[1]基于图模型的中文多谓词语义角色标注方法[J]. 杨海彤. 计算机工程. 2019(01)
[2]基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J]. 姚茂建,李晗静,吕会华,姚登峰. 现代电子技术. 2019(01)
[3]基于CNN和B-LSTM的文本处理模型研究[J]. 陈欣,于俊洋,赵媛媛. 轻工学报. 2018(05)
[4]《同义词词林》的嵌入表示与应用评估[J]. 段宇光,刘扬,俞士汶. 厦门大学学报(自然科学版). 2018(06)
[5]结合短语结构句法的语义角色标注[J]. 杨凤玲,周俏丽,蔡东风,季铎. 中文信息学报. 2018(06)
[6]基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注[J]. 张苗苗,张玉洁,刘明童,徐金安,陈钰枫. 计算机与现代化. 2018(04)
[7]基于句式与句模对应规则的语义角色标注[J]. 何保荣,邱立坤,孙盼盼. 中文信息学报. 2018(04)
[8]利用配价信息的语义角色标注[J]. 袁里驰. 电子学报. 2017(10)
[9]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[10]基于神经网络的文本表示模型新方法[J]. 曾谁飞,张笑燕,杜晓峰,陆天波. 通信学报. 2017(04)
硕士论文
[1]基于字符级卷积神经网络的中文文本分类研究[D]. 刘坤.沈阳工业大学 2018
本文编号:3675904
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3675904.html
最近更新
教材专著