当前位置:主页 > 文艺论文 > 语言学论文 >

基于注意力机制编解码框架的神经机器翻译方法研究

发布时间:2021-12-23 07:09
  近年来,神经机器翻译发展迅速,无论是从性能还是复杂性上相对传统的统计机器翻译都展现了极大的优势。本文针对传统基于注意力机制RNN-RNN编解码框架的神经机器翻译模型进行方法研究。对传统神经机器翻译所存在的特征提取能力不足、实词的原始词向量信息缺失、过译、漏译以及数据稀缺等问题,本文从基于注意力机制编解码框架下可分离的编码器、注意力机制以及解码器三个子模块着手进行改进以缓解特定问题。编码器作为基于注意力机制编解码框架神经机器翻译系统的特征提取器,相当于整个框架的基石,其特征提取能力直接决定了翻译系统所能取得的性能上限。针对传统双向RNN(BiRNN)编码器所存在的特征提取能力不足的问题,本文提出了融合的多编码器方法。针对编码器对虚实词不加区分使得原始信息流失而造成的实词翻译问题,本文引入了文本分类中的RCNN结构以设计增强的编码器。实验结果表明本文提出的融合多编码器方法和增强的编码器设计都有效地提升了编码器的特征提取能力,提升了系统的性能表现。过去几年中我们看到了基于注意力机制的神经机器翻译的成功,并且很多变种方法被提出来提升系统的性能。大部分基于注意力机制的神经机器翻译模型均采用将源端... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于注意力机制编解码框架的神经机器翻译方法研究


图1.1基于注意力机制RNN-_编解码框架的神经机器翻译框图??由图1.1可以看到传统的基于注意力机制编解码框架的神经机器翻译整体上??

示意图,注意力机制,数学公式,解码器


件语言模型。在解码时,为了缓解采用贪心算法而陷入局部最优解的问题,考虑??到整个搜索空间大小随解码长度成指数增长,通常采用集束搜索(beam-search)??算法近似搜寻全局最优解,集束搜索算法示意图如图1.3:??从图1.3可以看出,集束搜索解码由句子开始符号开始,通过给定的beamjize??(图中为5)大小生成前5个最大概率的输出,再由这5个输出解码生成共5*vo-??cab_size?(表示系统输出层的大小)个点的概率输出中选出前5个最大概率的输??出,遇到结束符号则当前路径结束,一直到有5个结束符号出现,取最大概率路??径节点作为最终输出。其中贪心算法相当于是bean^size大小设为1时的特殊情??况,beam_size取大一些可以相对缓解局部最优解问题,实验表明,随着beam_size??的增大测试集性能逐渐上升到趋于稳定。??8??

注意力机制,翻译模型,集束,对数似然函数


r〇??目标语??图1.2注意力机制示意图??训练过程中的解码器可以数学公式化表示如下:??p?{yk\y<^?x)?=?s〇fJ?max?{E\yk.^?ck))?0.8)??h?=?f?(,*-l,^'[yt_i],cit)?(1-9)??其中,g(.)是一个分线性函数,表示3^4所对应的词向量表示,公式表??示为Wk-小其中W表示目标端词向量矩阵,M表示序列^丨,乃,…,外一丨},??表示第个解码端隐层状态,Cfc是通过注意力机制得到的包含用于生成下一个??目标词的源端上下文向量,整个解码器相当于一个以源端句子信息作为条件的条??件语言模型。在解码时,为了缓解采用贪心算法而陷入局部最优解的问题,考虑??到整个搜索空间大小随解码长度成指数增长,通常采用集束搜索(beam-search)??算法近似搜寻全局最优解


本文编号:3548032

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/3548032.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3b349***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com