基于自注意力机制的机器翻译模型研究
发布时间:2021-03-31 05:29
语言是知识和信息传播的重要载体,随着互联网、社会信息化和经济全球化的飞速发展,克服语言障碍变得越来越重要。因此,机器翻译(Machine Translation,MT)对于打破不同国家、地区和民族之间的语言障碍,促进不同民族人民之间的交流以及减轻人们学习外语的压力具有十分重要的现实意义。本文先简单介绍了传统的统计机器翻译(Statistical Machine Translation,SMT)和神经机器翻译(Neural Machine Translation,NMT),并就这些机器翻译模型的优缺点进行了分析。然后在此基础上引入并详细介绍了基于自注意力机制(Self-Attention Mechanism)和多头自注意力机制(Multi-Heads Self-Attention Mechanism)的神经机器翻译模型Transformer,通过具体的实验对其进行详细的分析发现了该机制存在的一些不足,并且针对这些不足,提出了相应的改进方案,具体内容如下:首先,通过对自注意力机制以及Transformer模型进行详细的理论分析和实验分析,发现其存在两个问题:其一是在Transformer模...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1.2编码器-解码器祌经机器翻译框架实例??具体而言,可以通过对输入的源端句子X和目标端句子Y分别进行词嵌入来??器入V器入TQ,,??
颇士学位论文??MASTER'S?TIIKSIS??环生成一个个目标单词[1<)]。下面几节将会详细介绍编码器-解码器框架的具体结构。??3.2.1编码器-解码器框架??如图3.1所示,编码器-解码器框架主要包含两个主要的部分,第一个部分是一??个编码器,其主要作用是从输入的变长句子(源语言)通过神经网络提取出一个固??定长度的上下文向量[45],此向量包含了该句子语言学上的信息;而另一部分则是一??个用于解码词向量的解码器,其通过解码从编码器提取到的上下文向量,生成一个??和待翻译句子有着同样语言学信息的句子(目标语言),这个生成的句子就是模型翻??译出来的句子[4647]。不同于前馈神经网络,由于源语言句子和目标语言句子都是变??长的,所以编码器和解码器均需要能够处理变长输入的神经网络。常见的处理变长??输入的神经网络结构有循环神经网络(RNN?)、递归神经网络和卷积神经网络(CNN?)。??.>=(近.几年.经济.发展.变?慢,了,.)??[W〇lYWc ̄〇W]?|??■?编码器??\?解码??\??个??/?\??/?解码器?\??\QQQQmQ?)丄??.v=(Economic.?growth,?has.?slowed,?down,?in,?recent,?years,.)??图3.1编码器-解码器框架??3.2.2编码器及其构造??使用循环神经网络作为编码器时,其方法同语言模型的建模是类似的。如图3.2??所示,给定源语言句子?“Economic?growth?has?slowed?down?in?recent?years?首先将??句子里的第一个词“Economic”输入循环神经网
,每个时刻都会产生一个相应的隐含状态,该隐含状态将包含前面时刻所有??输入词语的信息及当前输入词语的信息。当将整个句子里的所有词(包括标点符号)??都按照上述步骤都输入到_之后,那么RNN输出的最后一个隐含状态则包含了??整个句子的信息,那么这个隐含状态理论上就能够作为整个句子的上下文向量输入??到编码器中。??OOOOOOOOf??i?1丨丨I丨I?T?1??dUHHiHBHH??Economic?growth?has?slowed?down?in?recent?years??图3.2基于循环神经网络的编码器??同SMT模型[45]不同的是,此编码器模块并不需要计算源语言句子里词的概率,??因为其仅使用循环神经网络进行编码,由神经网络自行进行特征学习,所以循环神??经网络也不需要输出层。如图3.3所示,左侧为用于语言模型的循环神经网络,语??言模型需要预测下一个词的概率,从而预测整个句子产生的概率;右侧为用于编码??器的循环神经网络,编码器不需要预测源语言句子的生成概率,只需要产生包含整??个句子信息的上下文向量。具体每个时刻的隐含状态计算公式如下所示,??h〇?=?0?(3.14)??h^^RNNdh^.x^)?(3.15)??C?=?/iw?(3-16)??p(slowed?|?economic?growth?has)??|"??;??■??Economic?growth?Economic?growth??OU?U???H?)?ht:?economic?growth?has?(?)?H?)?ht:?economic?growth?has??\W?W??i?i????xt:?ha
【参考文献】:
博士论文
[1]融合句法知识的神经机器翻译研究[D]. 吴双志.哈尔滨工业大学 2019
本文编号:3110883
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1.2编码器-解码器祌经机器翻译框架实例??具体而言,可以通过对输入的源端句子X和目标端句子Y分别进行词嵌入来??器入V器入TQ,,??
颇士学位论文??MASTER'S?TIIKSIS??环生成一个个目标单词[1<)]。下面几节将会详细介绍编码器-解码器框架的具体结构。??3.2.1编码器-解码器框架??如图3.1所示,编码器-解码器框架主要包含两个主要的部分,第一个部分是一??个编码器,其主要作用是从输入的变长句子(源语言)通过神经网络提取出一个固??定长度的上下文向量[45],此向量包含了该句子语言学上的信息;而另一部分则是一??个用于解码词向量的解码器,其通过解码从编码器提取到的上下文向量,生成一个??和待翻译句子有着同样语言学信息的句子(目标语言),这个生成的句子就是模型翻??译出来的句子[4647]。不同于前馈神经网络,由于源语言句子和目标语言句子都是变??长的,所以编码器和解码器均需要能够处理变长输入的神经网络。常见的处理变长??输入的神经网络结构有循环神经网络(RNN?)、递归神经网络和卷积神经网络(CNN?)。??.>=(近.几年.经济.发展.变?慢,了,.)??[W〇lYWc ̄〇W]?|??■?编码器??\?解码??\??个??/?\??/?解码器?\??\QQQQmQ?)丄??.v=(Economic.?growth,?has.?slowed,?down,?in,?recent,?years,.)??图3.1编码器-解码器框架??3.2.2编码器及其构造??使用循环神经网络作为编码器时,其方法同语言模型的建模是类似的。如图3.2??所示,给定源语言句子?“Economic?growth?has?slowed?down?in?recent?years?首先将??句子里的第一个词“Economic”输入循环神经网
,每个时刻都会产生一个相应的隐含状态,该隐含状态将包含前面时刻所有??输入词语的信息及当前输入词语的信息。当将整个句子里的所有词(包括标点符号)??都按照上述步骤都输入到_之后,那么RNN输出的最后一个隐含状态则包含了??整个句子的信息,那么这个隐含状态理论上就能够作为整个句子的上下文向量输入??到编码器中。??OOOOOOOOf??i?1丨丨I丨I?T?1??dUHHiHBHH??Economic?growth?has?slowed?down?in?recent?years??图3.2基于循环神经网络的编码器??同SMT模型[45]不同的是,此编码器模块并不需要计算源语言句子里词的概率,??因为其仅使用循环神经网络进行编码,由神经网络自行进行特征学习,所以循环神??经网络也不需要输出层。如图3.3所示,左侧为用于语言模型的循环神经网络,语??言模型需要预测下一个词的概率,从而预测整个句子产生的概率;右侧为用于编码??器的循环神经网络,编码器不需要预测源语言句子的生成概率,只需要产生包含整??个句子信息的上下文向量。具体每个时刻的隐含状态计算公式如下所示,??h〇?=?0?(3.14)??h^^RNNdh^.x^)?(3.15)??C?=?/iw?(3-16)??p(slowed?|?economic?growth?has)??|"??;??■??Economic?growth?Economic?growth??OU?U???H?)?ht:?economic?growth?has?(?)?H?)?ht:?economic?growth?has??\W?W??i?i????xt:?ha
【参考文献】:
博士论文
[1]融合句法知识的神经机器翻译研究[D]. 吴双志.哈尔滨工业大学 2019
本文编号:3110883
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3110883.html
最近更新
教材专著