基于深度神经网络的中文命名实体识别研究
发布时间:2022-02-14 18:01
命名实体识别作为自然语言处理的关键技术之一,已广泛应用于信息抽取、智能问答、机器翻译等领域中。随着互联网行业的快速发展,用户在网上的社交和娱乐会产生大量文本,为了能够挖掘文本内的有效信息,命名实体识别技术成为各领域人员关注的重点。命名实体识别的主要任务是识别出文本中人名、地名和机构名等专有名词。传统的命名实体识别方法需要花费大量的时间进行手工特征设计,特征工程对模型性能有很大影响。为了减弱模型对人工特征的依赖,本文引入当前流行的深度学习序列标注模型——BiLSTM-CRF模型作为基准模型,并对该模型进行改进,使其能更好的应用于中文命名实体识别任务中。论文主要工作如下:(1)为了方便文本序列输入,引入word2vec模型将中文字符转化为多维向量输入模型。将卷积神经网络引入BiLSTM-CRF模型,提出了一种基于BiLSTM-CNN-CRF的中文命名实体识别模型。该模型能够有效提取文本序列的空间特征信息。实验表明,BiLSTM-CNN-CRF模型在人民日报语料上召回率和F值比BiLSTM-CRF模型分别提高2.07%和0.86%。(2)将attention机制引入BiLSTM-CRF模型,...
【文章来源】:南京邮电大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
基于堆叠式自编码网络的命名实体识别模型
京邮电大学硕士研究生学位论文 第二章 中文命名实体识别方法3.1 LSTM 神经网络模型将传统循环神经网络展开后的结构和多层前馈神经网络很相似,所以在训练时如果层多不可避免的会出现梯度消失问题[39],梯度消失示意图如图 2.2 所示。图中结点颜色深示当前时刻能对第 1 时刻输入信息保留的多少,颜色越深表示保留的信息越多模型效果,颜色越浅表示保留信息越少模型容易出现梯度消失问题。从模型的前馈过程上看,随间推移,后续时刻能够提取到的信息逐渐减少。如图所示,在处理时刻 7 的数据时能获的时刻 1 的信息几乎已经消失。从训练过程中的反向传播过程上看,时刻 7 输出层的误通过梯度向前传播时,由于梯度的减小误差也逐渐减小使得模型无法有效更新较前时刻的权值。这种因为梯度消失使得模型无法得到较前时刻信息的问题也叫作长期依赖问题了解决这种问题,国内外很多研究人员都对 RNN 模型进行改进,比较常用的有 BRNNRU[41]、LSTM 等,其中应用最广泛的是 LSTM 模型。
图 2.3 标准 LSTM 模型结构图定了对上一时刻的输出信息的丢弃程度,通过 sigmoid 函数来对数值置为 0 到 1 之间的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 为t时刻的遗忘门层的输出,t 1h 表示 t 1时刻的隐藏层输出向入,fW 表示在 f 状态下对于输入tx 的权重矩阵,fb 表示偏置向量。定了什么样的信息应该被保存下来,为了确定需要更新的值,首先通化,然后再通过 tanh 函数创建一个新的候选值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 为t时刻的输入门层的输出,W 表示在i状态下对于输入x 的
【参考文献】:
期刊论文
[1]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[2]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[3]基于BLSTM的命名实体识别方法[J]. 冯艳红,于红,孙庚,孙娟娟. 计算机科学. 2018(02)
硕士论文
[1]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[2]基于规则的命名实体识别研究[D]. 周昆.合肥工业大学 2010
[3]基于条件随机域的中文命名实体识别研究[D]. 王志强.南京理工大学 2006
本文编号:3625016
【文章来源】:南京邮电大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
基于堆叠式自编码网络的命名实体识别模型
京邮电大学硕士研究生学位论文 第二章 中文命名实体识别方法3.1 LSTM 神经网络模型将传统循环神经网络展开后的结构和多层前馈神经网络很相似,所以在训练时如果层多不可避免的会出现梯度消失问题[39],梯度消失示意图如图 2.2 所示。图中结点颜色深示当前时刻能对第 1 时刻输入信息保留的多少,颜色越深表示保留的信息越多模型效果,颜色越浅表示保留信息越少模型容易出现梯度消失问题。从模型的前馈过程上看,随间推移,后续时刻能够提取到的信息逐渐减少。如图所示,在处理时刻 7 的数据时能获的时刻 1 的信息几乎已经消失。从训练过程中的反向传播过程上看,时刻 7 输出层的误通过梯度向前传播时,由于梯度的减小误差也逐渐减小使得模型无法有效更新较前时刻的权值。这种因为梯度消失使得模型无法得到较前时刻信息的问题也叫作长期依赖问题了解决这种问题,国内外很多研究人员都对 RNN 模型进行改进,比较常用的有 BRNNRU[41]、LSTM 等,其中应用最广泛的是 LSTM 模型。
图 2.3 标准 LSTM 模型结构图定了对上一时刻的输出信息的丢弃程度,通过 sigmoid 函数来对数值置为 0 到 1 之间的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 为t时刻的遗忘门层的输出,t 1h 表示 t 1时刻的隐藏层输出向入,fW 表示在 f 状态下对于输入tx 的权重矩阵,fb 表示偏置向量。定了什么样的信息应该被保存下来,为了确定需要更新的值,首先通化,然后再通过 tanh 函数创建一个新的候选值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 为t时刻的输入门层的输出,W 表示在i状态下对于输入x 的
【参考文献】:
期刊论文
[1]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[2]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[3]基于BLSTM的命名实体识别方法[J]. 冯艳红,于红,孙庚,孙娟娟. 计算机科学. 2018(02)
硕士论文
[1]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[2]基于规则的命名实体识别研究[D]. 周昆.合肥工业大学 2010
[3]基于条件随机域的中文命名实体识别研究[D]. 王志强.南京理工大学 2006
本文编号:3625016
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3625016.html