基于CSGAN的多模型融合蒙汉神经机器翻译研究
发布时间:2021-08-04 21:36
由于低资源语料稀少而导致的语义捕获不充分现象已成为影响机器翻译质量的主要因素.为此,该文在预处理的基础上利用CNN和门控机制来改进Transformer模型,通过对抗训练的方式来引导模型参数的优化,同时通过加入命名实体识别来提高模型对实体的翻译性能.此外,通过多模型融合的方式将来自多个机器翻译的输出经过改进、重组、合并转变为一个单一的改进的翻译结果.通过3组对比实验表明,该方法优于基准方法.
【文章来源】:江西师范大学学报(自然科学版). 2020,44(02)北大核心
【文章页数】:7 页
【部分图文】:
CRF命名实体识别
每层输出的计算方式为Ol(X)=(XW+bw)?σ(XV+bv),其中d为输入词向量的维度,k为卷积核的宽度,n为输出向量的维度,X∈Rd用来表示第l层卷积层的输入向量,W∈Rk×d×n是卷积核的参数矩阵,bw∈Rn是卷积核的偏置,?为逐元素相乘操作,σ是一个sigmoid函数,V∈Rk×d×n是GLU的卷积核矩阵,bv∈Rn是GLU卷积核的偏置,Ol(X)用来表示第l层的输出.结合基于门控机制的CNN与Transformer融合模型的结构图如图3所示,将输入层的词向量传入到卷积层中,其中每个卷积层输出的一部分用来计算GLU,剩下的部分作为卷积层的输出同GLU的输出进行逐元素相乘.2.3 模型训练
本文使用基于M. Mirza等[12]提出的条件约束生成对抗网络(Conditional Generative Adversarial Networks,CSGAN),针对蒙汉机器翻译任务的特点进行了改进.由于蒙汉任务资源稀缺,模型接受的数据存储较为稀疏,这使得模型很难在少量的语料中发现有用的上下文信息.对于这个问题,提出一种多粒度混合策略,在此基础上添加一个基于价值迭代的过滤器,用于帮助模型识别当前序列最合适的粒度.结构图如图4所示.所谓噪声,其实就是对原始训练语料经过不同粒度切分后产生的语料,这里可以理解为伪数据.生成器G用于译文的产生,本文中的生成器为前面提到的几种模型架构;将生成的译文通过价值选择器,过滤掉部分无用信息传入判别器;判别器D用于区分生成器G生成的译文与真实译文,判别器D采用深度卷积结构.生成器G采用策略梯度进行训练,计算公式为
本文编号:3322449
【文章来源】:江西师范大学学报(自然科学版). 2020,44(02)北大核心
【文章页数】:7 页
【部分图文】:
CRF命名实体识别
每层输出的计算方式为Ol(X)=(XW+bw)?σ(XV+bv),其中d为输入词向量的维度,k为卷积核的宽度,n为输出向量的维度,X∈Rd用来表示第l层卷积层的输入向量,W∈Rk×d×n是卷积核的参数矩阵,bw∈Rn是卷积核的偏置,?为逐元素相乘操作,σ是一个sigmoid函数,V∈Rk×d×n是GLU的卷积核矩阵,bv∈Rn是GLU卷积核的偏置,Ol(X)用来表示第l层的输出.结合基于门控机制的CNN与Transformer融合模型的结构图如图3所示,将输入层的词向量传入到卷积层中,其中每个卷积层输出的一部分用来计算GLU,剩下的部分作为卷积层的输出同GLU的输出进行逐元素相乘.2.3 模型训练
本文使用基于M. Mirza等[12]提出的条件约束生成对抗网络(Conditional Generative Adversarial Networks,CSGAN),针对蒙汉机器翻译任务的特点进行了改进.由于蒙汉任务资源稀缺,模型接受的数据存储较为稀疏,这使得模型很难在少量的语料中发现有用的上下文信息.对于这个问题,提出一种多粒度混合策略,在此基础上添加一个基于价值迭代的过滤器,用于帮助模型识别当前序列最合适的粒度.结构图如图4所示.所谓噪声,其实就是对原始训练语料经过不同粒度切分后产生的语料,这里可以理解为伪数据.生成器G用于译文的产生,本文中的生成器为前面提到的几种模型架构;将生成的译文通过价值选择器,过滤掉部分无用信息传入判别器;判别器D用于区分生成器G生成的译文与真实译文,判别器D采用深度卷积结构.生成器G采用策略梯度进行训练,计算公式为
本文编号:3322449
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3322449.html