基于注意力卷积的神经机器翻译研究
发布时间:2021-02-12 17:38
随着社会和科技的发展,机器翻译已成为人们日常生活中不可或缺的一部分。近年来,随着深度学习的发展,利用神经网络的机器翻译逐渐成为目前工业界与学术界的主流方法。现有的神经机器翻译普遍是采用基于注意力机制的编码器-解码器框架的序列到序列的翻译模型,注意力机制是通过注意力权重分布将目标端预测单词与源端语句联系起来,在每一时刻,注意力机制都会将其与源端所有单词的相关信息进行更新以得到针对当前时刻的注意力权重分布,用于帮助预测目标端单词的输出。注意力机制是当前神经机器翻译系统不可或缺的一部分,因此一个更加有效的注意力权重分布信息有助于机器翻译效果的提升。针对神经机器翻译模型注意力权重分布优化的问题,本文提出在注意力机制上建立多层卷积神经网络的方法,对基于注意力卷积的神经机器翻译模型进行深入研究。本文从当前时刻注意力信息、历史时刻注意力信息的角度出发,充分获取注意力信息对目标端翻译的帮助,旨在提高机器翻译的性能。在建立多层卷积神经网络的过程中:首先,对当前时刻注意力信息进行卷积,建立新的卷积层与激活函数,通过多组对比实验,测试出不同卷积核形状与卷积层参数对机器翻译结果的影响;其次,对历史时刻注意力信...
【文章来源】:苏州大学江苏省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图3-2注意力权重分布示意图??
入设定,没有默认值,^?/办默认为1,??默认为0,其填充值默认为0,默认为1。在不同的底层框架中,卷??积运算可能会有更多其他的输入参数,例如分组数用于将输入矩阵按??照gro〃/?的数值切分,通常默认为1;偏移量是否在卷积核扫描输入区域进行??对应相乘再求和的运算后添加偏移量,通常默认为7>?e。??若假设源端输入为乂二仏办办私私^^设置卷积核形状为丨)^,#**〗,*??了保持卷积输出矩阵的形状与输入相同,设置填充为1,对当前时刻目标端的注意力??权重分布建立多层卷积结构。如图3-3所示,初始状态下,或A或或(x2,jc3)为当前??时刻目标端单词对应的词组的概率较大,当对输入矩阵进行多层卷积运算后,高层??卷积的信息分布逐渐包含了低层的信息,形成了一种更为平滑的、短语级别的注意??力信息分布。??0?X\?X2?X3?X4?Xs?Xe?0??图3-3多层卷积输出示意图??3.2门控激活机制??为了使网络具有控制信息流传递的能力,在一些神经网络中常需要引入激活函??数,常用的有函数和函数,又或者卷积神经网络隐藏层屮的函数,??以及基于门控机制的Grt/?_和GLf;?_单元。在神经网络中,M先被广泛使用的激??活函数是WgmoW函数和rmA函数,这两个函数都是非线性的激活函数,表达式如??23??
第-:章基于当前注意力卷积的神经机器翻译?基于注意力卷积的神经机器翻译研宂??下:??Sigmoid(x)?=?[?(3.3)??T?anh(x)?=?— ̄—?(3.4)??ex?+?e^x??■S/gmoW函数最初被称为函数,由于其形状类似于“S”型,因此被称??为其取值范围为区间(0,1);?7\w/7函数又称双曲正切函数,它等于双曲正??弦函数与双曲余弦函数的比值“/n(x)/co.?(j〇),其取值范围为区间(-1,丨)。如图3-4所??示,图中蓝色实线表示函数曲线,红色虚线表示函数的导数曲线。在目前的深度学??习算法中,神经网络优化的方法通常是基于反向传播的思想,即根据损失函数计算??误差并通过梯度反向传播的方式来指导更新神经网络参数。??1.0H?????1.Q?个'?^????Sigmoid?^??"、?//^?——Tanh???Sigmoid'?j?\?(??Tanh’??/??/?^?1?2?4??-2 ̄ ̄^^-i.〇J??(a)??S/Smo/V/函数?(b)?7\7/?/7函数??图3-4?5/以讓V/和7Vm/i函数曲线及导数曲线??在反向传播的过程中,很容易出现梯度消失与梯度爆炸的问题。梯度消失??通常是因为在深层的神经网络中采用了不合适的激活函数,例如函数,??S?/gmoW函数是将所有的数映射到区间(0,丨),且其导数的阈值也在区间(〇,?1),在反向??传播的过程中,损失函数是由每层函数的偏导数相乘得到的,随着神经网络层数的??加深,最后一层的损失由多个在区间(0,1)的数相乘得到,因此会愈来愈趋近于0,从??而导致浅层的参数无法得到更新,这
【参考文献】:
期刊论文
[1]基于句法的统计机器翻译模型与方法[J]. 刘群. 中文信息学报. 2011(06)
本文编号:3031222
【文章来源】:苏州大学江苏省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图3-2注意力权重分布示意图??
入设定,没有默认值,^?/办默认为1,??默认为0,其填充值默认为0,默认为1。在不同的底层框架中,卷??积运算可能会有更多其他的输入参数,例如分组数用于将输入矩阵按??照gro〃/?的数值切分,通常默认为1;偏移量是否在卷积核扫描输入区域进行??对应相乘再求和的运算后添加偏移量,通常默认为7>?e。??若假设源端输入为乂二仏办办私私^^设置卷积核形状为丨)^,#**〗,*??了保持卷积输出矩阵的形状与输入相同,设置填充为1,对当前时刻目标端的注意力??权重分布建立多层卷积结构。如图3-3所示,初始状态下,或A或或(x2,jc3)为当前??时刻目标端单词对应的词组的概率较大,当对输入矩阵进行多层卷积运算后,高层??卷积的信息分布逐渐包含了低层的信息,形成了一种更为平滑的、短语级别的注意??力信息分布。??0?X\?X2?X3?X4?Xs?Xe?0??图3-3多层卷积输出示意图??3.2门控激活机制??为了使网络具有控制信息流传递的能力,在一些神经网络中常需要引入激活函??数,常用的有函数和函数,又或者卷积神经网络隐藏层屮的函数,??以及基于门控机制的Grt/?_和GLf;?_单元。在神经网络中,M先被广泛使用的激??活函数是WgmoW函数和rmA函数,这两个函数都是非线性的激活函数,表达式如??23??
第-:章基于当前注意力卷积的神经机器翻译?基于注意力卷积的神经机器翻译研宂??下:??Sigmoid(x)?=?[?(3.3)??T?anh(x)?=?— ̄—?(3.4)??ex?+?e^x??■S/gmoW函数最初被称为函数,由于其形状类似于“S”型,因此被称??为其取值范围为区间(0,1);?7\w/7函数又称双曲正切函数,它等于双曲正??弦函数与双曲余弦函数的比值“/n(x)/co.?(j〇),其取值范围为区间(-1,丨)。如图3-4所??示,图中蓝色实线表示函数曲线,红色虚线表示函数的导数曲线。在目前的深度学??习算法中,神经网络优化的方法通常是基于反向传播的思想,即根据损失函数计算??误差并通过梯度反向传播的方式来指导更新神经网络参数。??1.0H?????1.Q?个'?^????Sigmoid?^??"、?//^?——Tanh???Sigmoid'?j?\?(??Tanh’??/??/?^?1?2?4??-2 ̄ ̄^^-i.〇J??(a)??S/Smo/V/函数?(b)?7\7/?/7函数??图3-4?5/以讓V/和7Vm/i函数曲线及导数曲线??在反向传播的过程中,很容易出现梯度消失与梯度爆炸的问题。梯度消失??通常是因为在深层的神经网络中采用了不合适的激活函数,例如函数,??S?/gmoW函数是将所有的数映射到区间(0,丨),且其导数的阈值也在区间(〇,?1),在反向??传播的过程中,损失函数是由每层函数的偏导数相乘得到的,随着神经网络层数的??加深,最后一层的损失由多个在区间(0,1)的数相乘得到,因此会愈来愈趋近于0,从??而导致浅层的参数无法得到更新,这
【参考文献】:
期刊论文
[1]基于句法的统计机器翻译模型与方法[J]. 刘群. 中文信息学报. 2011(06)
本文编号:3031222
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3031222.html
最近更新
教材专著