基于注意力卷积的神经机器翻译研究

发布时间：2021-02-12 17:38

　　随着社会和科技的发展,机器翻译已成为人们日常生活中不可或缺的一部分。近年来,随着深度学习的发展,利用神经网络的机器翻译逐渐成为目前工业界与学术界的主流方法。现有的神经机器翻译普遍是采用基于注意力机制的编码器-解码器框架的序列到序列的翻译模型,注意力机制是通过注意力权重分布将目标端预测单词与源端语句联系起来,在每一时刻,注意力机制都会将其与源端所有单词的相关信息进行更新以得到针对当前时刻的注意力权重分布,用于帮助预测目标端单词的输出。注意力机制是当前神经机器翻译系统不可或缺的一部分,因此一个更加有效的注意力权重分布信息有助于机器翻译效果的提升。针对神经机器翻译模型注意力权重分布优化的问题,本文提出在注意力机制上建立多层卷积神经网络的方法,对基于注意力卷积的神经机器翻译模型进行深入研究。本文从当前时刻注意力信息、历史时刻注意力信息的角度出发,充分获取注意力信息对目标端翻译的帮助,旨在提高机器翻译的性能。在建立多层卷积神经网络的过程中:首先,对当前时刻注意力信息进行卷积,建立新的卷积层与激活函数,通过多组对比实验,测试出不同卷积核形状与卷积层参数对机器翻译结果的影响;其次,对历史时刻注意力信...

【文章来源】：苏州大学江苏省

【文章页数】：76 页

【学位级别】：硕士

【部分图文】：

基于注意力卷积的神经机器翻译研究

图３－２注意力权重分布示意图??

示意图,卷积,示意图,函数

入设定，没有默认值，＾？／办默认为１，??默认为０，其填充值默认为０，默认为１。在不同的底层框架中，卷??积运算可能会有更多其他的输入参数，例如分组数用于将输入矩阵按??照ｇｒｏ〃／？的数值切分，通常默认为１；偏移量是否在卷积核扫描输入区域进行??对应相乘再求和的运算后添加偏移量，通常默认为７＞？ｅ。??若假设源端输入为乂二仏办办私私＾＾设置卷积核形状为丨）＾，＃＊＊〗，＊??了保持卷积输出矩阵的形状与输入相同，设置填充为１，对当前时刻目标端的注意力??权重分布建立多层卷积结构。如图３－３所示，初始状态下，或Ａ或或（ｘ２，ｊｃ３）为当前??时刻目标端单词对应的词组的概率较大，当对输入矩阵进行多层卷积运算后，高层??卷积的信息分布逐渐包含了低层的信息，形成了一种更为平滑的、短语级别的注意??力信息分布。??０?Ｘ＼?Ｘ２?Ｘ３?Ｘ４?Ｘｓ?Ｘｅ?０??图３－３多层卷积输出示意图??３．２门控激活机制??为了使网络具有控制信息流传递的能力，在一些神经网络中常需要引入激活函??数，常用的有函数和函数，又或者卷积神经网络隐藏层屮的函数，??以及基于门控机制的Ｇｒｔ／?＿和ＧＬｆ；?＿单元。在神经网络中，Ｍ先被广泛使用的激??活函数是ＷｇｍｏＷ函数和ｒｍＡ函数，这两个函数都是非线性的激活函数，表达式如??２３??

导数曲线,导数曲线,函数曲线,函数

第－：章基于当前注意力卷积的神经机器翻译?基于注意力卷积的神经机器翻译研宂??下：??Ｓｉｇｍｏｉｄ（ｘ）?＝?［?（３．３）??Ｔ?ａｎｈ（ｘ）?＝?—￣—?（３．４）??ｅｘ?＋?ｅ＾ｘ??■Ｓ／ｇｍｏＷ函数最初被称为函数，由于其形状类似于“Ｓ”型，因此被称??为其取值范围为区间（０，１）；?７＼ｗ／７函数又称双曲正切函数，它等于双曲正??弦函数与双曲余弦函数的比值“／ｎ（ｘ）／ｃｏ．？（ｊ〇），其取值范围为区间（－１，丨）。如图３－４所??示，图中蓝色实线表示函数曲线，红色虚线表示函数的导数曲线。在目前的深度学??习算法中，神经网络优化的方法通常是基于反向传播的思想，即根据损失函数计算??误差并通过梯度反向传播的方式来指导更新神经网络参数。??１．０Ｈ?????１．Ｑ?个＇?＾????Ｓｉｇｍｏｉｄ?＾??＂、?／／＾?——Ｔａｎｈ???Ｓｉｇｍｏｉｄ＇?ｊ?＼?（??Ｔａｎｈ’??／??／?＾?１?２?４??－２￣￣＾＾－ｉ．〇Ｊ??（ａ）?？Ｓ／Ｓｍｏ／Ｖ／函数?（ｂ）?７＼７／？／７函数??图３－４?５／以讓Ｖ／和７Ｖｍ／ｉ函数曲线及导数曲线??在反向传播的过程中，很容易出现梯度消失与梯度爆炸的问题。梯度消失??通常是因为在深层的神经网络中采用了不合适的激活函数，例如函数，??Ｓ?／ｇｍｏＷ函数是将所有的数映射到区间（０，丨），且其导数的阈值也在区间（〇，?１），在反向??传播的过程中，损失函数是由每层函数的偏导数相乘得到的，随着神经网络层数的??加深，最后一层的损失由多个在区间（０，１）的数相乘得到，因此会愈来愈趋近于０，从??而导致浅层的参数无法得到更新，这

【参考文献】：
期刊论文
[1]基于句法的统计机器翻译模型与方法[J]. 刘群. 中文信息学报. 2011(06)

本文编号：3031222

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3031222.html

上一篇：激光主动照明偏振成像及图像融合算法研究
下一篇：高校实习全生命周期管理与岗位推荐系统的研究与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|