融入注意力机制的越南语组块识别方法
发布时间:2021-07-14 19:40
对于越南语组块识别任务,在前期对越南语组块内部词性构成模式进行统计调查的基础上,该文针对Bi-LSTM+CRF模型提出了两种融入注意力机制的方法:一是在输入层融入注意力机制,从而使得模型能够灵活调整输入的词向量与词性特征向量各自的权重;二是在Bi-LSTM之上加入了多头注意力机制,从而使模型能够学习到Bi-LSTM输出值的权重矩阵,进而有选择地聚焦于重要信息。实验结果表明,在输入层融入注意力机制后,模型对组块识别的F值提升了3.08%,在Bi-LSTM之上加入了多头注意力机制之后,模型对组块识别的F值提升了4.56%,证明了这两种方法的有效性。
【文章来源】:中文信息学报. 2019,33(12)北大核心CSCD
【文章页数】:10 页
【部分图文】:
Bi-LSTM+Multi-Head Attention+CRF模型
长短时记忆网络(long-short-term memory,LSTM)是循环神经网络(recurrent neural network,RNN)的一种变体,其通过加入门限机制在一定程度上缓解了RNN面临的梯度弥散和梯度爆炸问题。Bi-LSTM层利用了LSTM正向与反向两个序列方向上的信息来对输入信息进行处理,而CRF层则通过计算输出值之间的转移概率,进而将输出值间的转移信息融入到模型中,从而提升模型的效果。Bi-LSTM+CRF模型的整体架构如图1所示。多头注意力机制由Vaswani等[15]在2017年提出,其由多个放缩点积注意力机制(scaled dot-product attention)组成,内部结构如图2所示。
多头注意力机制由Vaswani等[15]在2017年提出,其由多个放缩点积注意力机制(scaled dot-product attention)组成,内部结构如图2所示。由图2可知,在放缩点积注意力机制中,通过对查询Q与(键—值)对中的键K进行相似度运算等一系列操作,可以获得权重矩阵,进而使模型有选择地聚焦于重要信息上。而在多头注意力机制中,在对输入进行线性变换以后,要进行h次放缩点积注意力操作。之后,将h次放缩点积注意力操作后的向量进行串联拼接,并进行线性变换后作为多头注意力机制的输出。根据Vaswani等人的研究成果,进行多次放缩点积操作的好处在于可以使模型在不同的表示子空间里学到更多的信息[15]。
【参考文献】:
期刊论文
[1]基于深度神经网络的维吾尔文命名实体识别研究[J]. 王路路,艾山·吾买尔,吐尔根·依布拉音,买合木提·买买提,卡哈尔江·阿比的热西提. 中文信息学报. 2019(03)
[2]基于CRF和转换错误驱动学习的浅层句法分析[J]. 张芬,曲维光,赵红艳,周俊生. 广西师范大学学报(自然科学版). 2011(03)
[3]基于CRF的中文组块分析[J]. 徐中一,胡谦,刘磊. 吉林大学学报(理学版). 2007(03)
[4]基于SVM的中文组块分析[J]. 李珩,朱靖波,姚天顺. 中文信息学报. 2004(02)
[5]汉语基本短语的自动识别[J]. 张昱琪,周强. 中文信息学报. 2002(06)
[6]基于统计的汉语组块分析[J]. 刘芳,赵铁军,于浩,杨沐昀,方高林. 中文信息学报. 2000(06)
博士论文
[1]汉语组块计算的若干研究[D]. 李素建.中国科学院研究生院(计算技术研究所) 2002
硕士论文
[1]越南语浅层句法分析方法的研究[D]. 刘艳超.昆明理工大学 2017
本文编号:3284768
【文章来源】:中文信息学报. 2019,33(12)北大核心CSCD
【文章页数】:10 页
【部分图文】:
Bi-LSTM+Multi-Head Attention+CRF模型
长短时记忆网络(long-short-term memory,LSTM)是循环神经网络(recurrent neural network,RNN)的一种变体,其通过加入门限机制在一定程度上缓解了RNN面临的梯度弥散和梯度爆炸问题。Bi-LSTM层利用了LSTM正向与反向两个序列方向上的信息来对输入信息进行处理,而CRF层则通过计算输出值之间的转移概率,进而将输出值间的转移信息融入到模型中,从而提升模型的效果。Bi-LSTM+CRF模型的整体架构如图1所示。多头注意力机制由Vaswani等[15]在2017年提出,其由多个放缩点积注意力机制(scaled dot-product attention)组成,内部结构如图2所示。
多头注意力机制由Vaswani等[15]在2017年提出,其由多个放缩点积注意力机制(scaled dot-product attention)组成,内部结构如图2所示。由图2可知,在放缩点积注意力机制中,通过对查询Q与(键—值)对中的键K进行相似度运算等一系列操作,可以获得权重矩阵,进而使模型有选择地聚焦于重要信息上。而在多头注意力机制中,在对输入进行线性变换以后,要进行h次放缩点积注意力操作。之后,将h次放缩点积注意力操作后的向量进行串联拼接,并进行线性变换后作为多头注意力机制的输出。根据Vaswani等人的研究成果,进行多次放缩点积操作的好处在于可以使模型在不同的表示子空间里学到更多的信息[15]。
【参考文献】:
期刊论文
[1]基于深度神经网络的维吾尔文命名实体识别研究[J]. 王路路,艾山·吾买尔,吐尔根·依布拉音,买合木提·买买提,卡哈尔江·阿比的热西提. 中文信息学报. 2019(03)
[2]基于CRF和转换错误驱动学习的浅层句法分析[J]. 张芬,曲维光,赵红艳,周俊生. 广西师范大学学报(自然科学版). 2011(03)
[3]基于CRF的中文组块分析[J]. 徐中一,胡谦,刘磊. 吉林大学学报(理学版). 2007(03)
[4]基于SVM的中文组块分析[J]. 李珩,朱靖波,姚天顺. 中文信息学报. 2004(02)
[5]汉语基本短语的自动识别[J]. 张昱琪,周强. 中文信息学报. 2002(06)
[6]基于统计的汉语组块分析[J]. 刘芳,赵铁军,于浩,杨沐昀,方高林. 中文信息学报. 2000(06)
博士论文
[1]汉语组块计算的若干研究[D]. 李素建.中国科学院研究生院(计算技术研究所) 2002
硕士论文
[1]越南语浅层句法分析方法的研究[D]. 刘艳超.昆明理工大学 2017
本文编号:3284768
本文链接:https://www.wllwen.com/waiyulunwen/zhichangyingyu/3284768.html