当前位置:主页 > 文艺论文 > 语言学论文 >

基于迭代式回译策略的藏汉机器翻译方法研究

发布时间:2021-09-07 18:45
  该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。 

【文章来源】:中文信息学报. 2020,34(11)北大核心CSCD

【文章页数】:8 页

【部分图文】:

基于迭代式回译策略的藏汉机器翻译方法研究


总体框架

示意图,过滤机制,示意图,源语言


平行句对过滤机制是迭代式回译策略中最重要的组成部分,需要通过过滤机制对每次迭代产生的伪数据进行平行句对抽取,从而达到扩充训练数据的目的,但对于平行句对过滤机制来说,不仅需要完全准确的藏汉双语句对(正样本),而且需要噪声数据(负样本)共同来训练过滤模型,设正样本句对为{S R Τb ,S R Ch },其中源语言为S R Τb ,目标语言为S R Ch ,且R∈{1,2,…,n},负样本句对通过随机抽取的方式从原有语料库进行抽取并得到{S R Τb ,S Μ Ch },其中R≠M,也就是说,负样本{S R Τb ,S Μ Ch }不是平行句对,因此,影响平行句对过滤模型的性能参数就变为了p(?i|STbi,SChj),其中S i Τb =(w i,1 Τb ,w i,2 Τb ,…,w i,n Τb ),表示源语言句子由n个词组成,S j Ch =(w j,1 Ch ,w j,2 Ch ,…,w j,m Ch ),表示目标语言句子由m个词组成,?i∈(0,1),表示{S i Τb ,S j Ch }是否平行的概率估计。本节将通过双向循环神经网络(bidirectional BiRNN)对藏汉双语句对进行编码,并训练平行句对过滤模型,同时使用LSTM中的门控循环单元(gated recurrent unit, GRU)作为激活函数[9],具体如图2所示。语言(汉语)表示为连续的向量。设源语言集合S n Τb ,在t时刻,第n个句子的词wq由源语言构建的词表VTb中第q个索引定义,即(One hot vector)wq∈R|VTb|,若其中第q个元素为1,其他元素为0,则该向量与嵌入层的矩阵为Es相乘得到该词的连续向量表示w i,t Τb [式(1)],并将该向量作为双向RNN编码器的前向输入,同理可以得到双向RNN编码器后向的输入,前向RNN编码器从输入字符串的首个词开始向前逐个编码,直到结束符<EOS>为止,得到一个定长的连续向量表示h i,n Τb ∈Rmodeld[式(2)],其中modeld表示解码器隐藏层输出状态的维度,而后向RNN从结束符<EOS>到首个词逐个编码获得后向RNN的隐含层表示h i,1 Τb ∈Rmodeld[式(3)],最终将前向和后向的隐含层表示向量进行拼接,得到源语言句子的最终隐藏层向量表示,即hTb=[h i,n Τb ;h i,1 Τb ][式(4)],同理可以得到目标语言句子的最终隐藏层隐含层表示hCh=[h j,m Ch ;h j,1 Ch ]。源语言隐藏状态向量具体计算如式(1)~式(4)所示。

模型图,性能,模型,基线


在同一训练集和验证集上经过50万次的轮数训练后,三个模型的性能对比如图2所示,实验表明,Transformer的性能也优于其他两个模型,所以本文选择将其做基准模型。上述实验完全地证明了Transformer的高效性和作为基线系统的有效性,综上所述,后续迭代式回译实验将使用Transformer作为回译实验的基线系统。在本实验中,主要包含两个步骤:


本文编号:3390060

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/3390060.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bfde***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com