面向自然语言处理的注意力机制研究
发布时间:2021-06-27 16:16
随着全球进入信息时代,网络的盛行促进了数据的爆炸式增长。这些数据之中潜藏着巨大的利用价值。但是面对如此海量的信息,仅凭人力来分析已经是力有未逮。利用机器进行部分自然语言处理分析的需求越来越旺盛。不同语言的处理技术会存在一定的差异。中文分词就是中文自然语言处理重要步骤之一。进行中文分词任务的研究不仅在实际工程应用上有一定的价值,对于相关的其他自然语言处理任务也存在一定的借鉴意义。当前中文分词模型主要是基于循环神经网络的模型设计,存在着长距离信息交互学习能力有限、计算时间成本较高等不足。而基于自注意力机制的计算层可以在一定程度上解决这些问题。本文针对基于自注意力机制的中文分词任务进行研究,主要工作如下:第一,将自注意力机制进入中文分词领域,提出了基于自注意力机制的中文分词网络模型。该模型结合了卷积计算和自注意力计算两者的优势,能够同时兼顾短距离信息依赖和长距离信息依赖。实验结果表明,自注意力机制的引入使得中文分词模型系统的性能得以提升,并且相对传统的循环神经网络模型提高了计算速度。第二,通过对网络层参数学习本质的分析,提出了一种基于BERT预训练的中文分词模型。该模型通过基于自注意力机制的...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-3维特比解码??CRF的解码过程一般使用维特比解码,如图2-3所示
不过被研究者使用最多的不是标准的循环神经网络,而是其变体长短期记忆??(Long-ShortTermMemory,LSTM)?[17]的循环神经网络。这种变体修改了标准??循环神经网络的每个时序计算结构。如图2-4加入一些门结构,使得网络能够自??动学习是否遗忘隐藏层己经记住的信息,从而变相地建立一些跳接(Skip?Connect)??来让序列在长距离时序之间的距离变短,进而提升长距离时序之间的信息传递能??力。这一点修改使得网络从标准循环神经网络不到10的记忆长度提升到了?LSTM??中几十上百的记忆长度。另外为了更加充分地捕捉上下文信息而不仅仅是上文信??息,通常使用双向的LSTM?(Bi-LSTM),即一个正向的LSTM加上一个反向的??LSTM。最后在Bi-LSTM模型后面加上Softmax分类器。这种做法使用了双向??LSTM加强了特征组合的能力,能够自行学习特征组合的可能性。??11??
输入矩阵X和真实标注F都是已知的。而在推断阶段,只有输入矩阵??I。??整个模型的流程如图3-1主要分为嵌入层(Embedding?Layer)、特征层??(Feature?Layer?)、条件随机场层(CRF?Layer)。??18??
本文编号:3253180
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-3维特比解码??CRF的解码过程一般使用维特比解码,如图2-3所示
不过被研究者使用最多的不是标准的循环神经网络,而是其变体长短期记忆??(Long-ShortTermMemory,LSTM)?[17]的循环神经网络。这种变体修改了标准??循环神经网络的每个时序计算结构。如图2-4加入一些门结构,使得网络能够自??动学习是否遗忘隐藏层己经记住的信息,从而变相地建立一些跳接(Skip?Connect)??来让序列在长距离时序之间的距离变短,进而提升长距离时序之间的信息传递能??力。这一点修改使得网络从标准循环神经网络不到10的记忆长度提升到了?LSTM??中几十上百的记忆长度。另外为了更加充分地捕捉上下文信息而不仅仅是上文信??息,通常使用双向的LSTM?(Bi-LSTM),即一个正向的LSTM加上一个反向的??LSTM。最后在Bi-LSTM模型后面加上Softmax分类器。这种做法使用了双向??LSTM加强了特征组合的能力,能够自行学习特征组合的可能性。??11??
输入矩阵X和真实标注F都是已知的。而在推断阶段,只有输入矩阵??I。??整个模型的流程如图3-1主要分为嵌入层(Embedding?Layer)、特征层??(Feature?Layer?)、条件随机场层(CRF?Layer)。??18??
本文编号:3253180
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3253180.html