基于半监督方法的蒙汉机器翻译的研究
发布时间:2020-11-11 20:49
近年来,随着深度学习的进步和对大规模平行语料库的使用,针对机器翻译领域的研究取得了令人瞩目的成绩,但这些成功的背后仍需要大量平行语料支撑。而蒙汉双语平行语料稀缺使得蒙汉机器翻译模型性能难以提升,本文通过构建基于单语辅助的蒙汉神经网络机器翻译模型,可以有效缓减蒙汉机器翻译任务中的平行语料稀缺问题,并将该方法扩展到基于短语的统计机器翻译模型上,更好地提升翻译系统的性能。最后对上述两个系统进行联合训练得到性能较好的翻译模型。本文具体工作内容如下:(1)本文提出了利用单语语料构建无监督蒙汉神经网络机器翻译模型的方法。该模型在训练过程中仅使用蒙汉单语语料,利用自学习方法对蒙古文端和汉文端单语词嵌入进行跨语言词嵌入训练得到双语词典,然后通过该双语词典和汉文语言模型初始化翻译模型。在无监督机器翻译系统中,利用迭代回译可以对语料进行有效地扩充,减少模型对平行语料的依赖,有效缓解蒙汉机器翻译任务中的平行语料稀缺问题。(2)本文实现了基于短语的半监督蒙汉统计机器翻译模型。使用无监督方法对基于短语的无监督蒙汉统计机器翻译模型进行建模,并将得到的伪平行语料与平行语料在有监督方法下训练基于半监督方法的统计机器翻译模型,提升基于短语的蒙汉统计机器翻译模型翻译性能。(3)本文实现了两种模型的联合训练方法。在基于短语的蒙汉统计机器翻译模型中,模型训练的最小翻译单元为短语片段,翻译得到的短语免去了局部调序的问题,这样可以更好的保留句子的结构信息,使得翻译效果有所提升。因此,本文将对半监督蒙汉神经网络机器翻译模型和基于短语的半监督蒙汉统计机器翻译模型在EM框架下进行联合训练,进一步提升蒙汉机器翻译模型翻译性能。本文通过实验验证了自学习方法在蒙古文和汉文这样相似性较低的语言之间的词嵌入训练效果优于基于生成式对抗网络方法,且无监督训练方法可以扩充语料进而提升低资源语言机器翻译模型性能,本文无监督蒙汉神经网络机器翻译模型BLEU值达到18.76。随后将无监督方法应用在基于短语的蒙汉统计机器翻译模型中,得到了较无监督神经机器翻译模型更好的表现,BLEU值达到27.15。由于使用无监督方法得到的伪语料噪声较多,不利于模型的语义抽取,因此本文使用无监督翻译模型得到的伪平行语料和双语平行语料进行半监督训练,对无监督模型进行改进,并结合统计机器翻译模型和神经机器翻译模型各自优势进行联合训练,实现性能高于单一系统的蒙汉机器翻译模型,BLEU值达到38.16。该模型性能超过有监督蒙汉神经网络机器翻译模型性能,为之后蒙汉机器翻译研究及其他低资源语言机器翻译任务的研究奠定了基础。
【学位单位】:内蒙古大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:TP391.2;TP18
【部分图文】:
基于半监督方法的蒙汉机器翻译的研究10图2.1基于短语的蒙汉统计机器翻译模型架构图Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短语表短语表由源语言端n-gram的集合、这些n-gram在目标语言中可能的翻译以及这个翻译对应的得分组成。为了系统可以对更长的句子进行翻译,解码器将这部分n-gram的翻译组合起来,根据相应的分数和其余的打分模型对这个候选翻译进行排序。SMT系统首先从平行语料库中利用词对齐模型得到两个方向的词对齐,然后抽取一致的短语集合,并根据频率进行打分,得到最终的短语表。2.1.2反向短语翻译模型|Pef表示目标端语言句子翻译为源语言句子的概率,该部分为整个统计机器翻译模型的核心,假设将源语言句子f分为I个不同的短语片段,记IIffff11,且每个if均可以翻译得到对应的ei,则反向短语翻译模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP为短语对齐模型。短语对齐模型是通过对双语平行语料中的短语信息进行统计分析后得到的,用于构建两种语言之间的词对应关系,短语对齐信息Iaaa1用于描述目标语言句子f中的第i个短语的位置与源语言端第ia个词的位置的对应关系。经过短语抽取后,可以得到“一对一”的短语表,在翻译中以短语片段为最小翻译单元,这样做可以有效地减少基于词的翻译模型中翻译结果的不连贯问题。表2.1为一个短语对齐信息表述示例:
内蒙古大学硕士学位论文13图2.2编码器-解码器网络结构图Figure2.2Encoder-DecoderNetworkStructureDiagram目前应用在机器翻译任务上的深度神经网络模型主要有基于CNN的机器翻译模型、基于RNN的机器翻译模型以及基于注意力机制的Transformer机器翻译模型。2.2.1卷积神经网络机器翻译模型卷积神经网络最先应用于图像处理,后又应用于手写数字识别任务。在机器翻译任务中,Dauphin等人的工作[47]展示了如何通过使用多层卷积神经网络来构造并训练一个高性能的语言模型。该模型使用一句话构成的词嵌入作为输入,每一行表示一个词的词嵌入,在处理文本时,卷积核通常只能覆盖上下几行的词,因此设置卷积核宽度与输入词嵌入宽度一致,这样操作不仅可以捕捉到连续词之间的特征,也可以实现在计算同一类特征时的权重共享。FacebookAI团队实现了基于卷积神经网络的机器翻译模型[5],通过对模型进行训练可以获得句子当中各组成成分的语义特征,然后通过学习到的语义特征将源语言句子翻译为目标语言句子,得到翻译结果。2.2.2循环神经网络翻译模型RNN的核心思想是使用经过量化后的句子的序列信息进行特征提取,与普通的FNN不同的是,RNN在FNN的基础上加入了循环机制,这样操作使得RNN可以学习到甚至前后没有关联的词语之间的信息,但是当需要翻译的句子过长时,RNN依然存在长距离依赖问题[48]且会导致训练过程中的梯度消失和梯度爆炸问题。为解决RNN在训练中遇到的这些问题,引入了长短时记忆(LongShort-TermMemory,简称LSTM)[49]对RNN进行改进。图2.3为一个基于注意力机制的双向LSTM蒙汉机器翻译模型结构图:
基于半监督方法的蒙汉机器翻译的研究14图2.3基于注意力机制的双向LSTM蒙汉机器翻译模型结构图Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是将源语言句子F转换为矩阵H表示,矩阵中的每一列表示句子中每个词的词嵌入。在编码阶段源语言句子的向量表示会通过双向LSTM结构进行正反向的充分学习,使得输入可以充分考虑上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(为编码器函数,emb)(为该词语的向量表示,通过这两个函数得到if的两个向量表示,然后将两个向量连接成双向向量,最后将这些向量拼接为矩阵H。在解码阶段Decoder每次输出一个词,Decoder的隐层状态jz是一个用来表示先前的目标词11je的固定长度的向量。jz与隐层状态ih进行相似度计算:),(1jiijzhsim(2-9)sim)(函数为相似度计算函数,该函数有多种选择方式,本文使用点积后对注意力向量归一化的方式进行计算:Tkkjijija1)exp()exp((2-10)上下文向量jC通过注意力向量ija和隐层状态ih加权后求平均得到:
【参考文献】
本文编号:2879722
【学位单位】:内蒙古大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:TP391.2;TP18
【部分图文】:
基于半监督方法的蒙汉机器翻译的研究10图2.1基于短语的蒙汉统计机器翻译模型架构图Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短语表短语表由源语言端n-gram的集合、这些n-gram在目标语言中可能的翻译以及这个翻译对应的得分组成。为了系统可以对更长的句子进行翻译,解码器将这部分n-gram的翻译组合起来,根据相应的分数和其余的打分模型对这个候选翻译进行排序。SMT系统首先从平行语料库中利用词对齐模型得到两个方向的词对齐,然后抽取一致的短语集合,并根据频率进行打分,得到最终的短语表。2.1.2反向短语翻译模型|Pef表示目标端语言句子翻译为源语言句子的概率,该部分为整个统计机器翻译模型的核心,假设将源语言句子f分为I个不同的短语片段,记IIffff11,且每个if均可以翻译得到对应的ei,则反向短语翻译模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP为短语对齐模型。短语对齐模型是通过对双语平行语料中的短语信息进行统计分析后得到的,用于构建两种语言之间的词对应关系,短语对齐信息Iaaa1用于描述目标语言句子f中的第i个短语的位置与源语言端第ia个词的位置的对应关系。经过短语抽取后,可以得到“一对一”的短语表,在翻译中以短语片段为最小翻译单元,这样做可以有效地减少基于词的翻译模型中翻译结果的不连贯问题。表2.1为一个短语对齐信息表述示例:
内蒙古大学硕士学位论文13图2.2编码器-解码器网络结构图Figure2.2Encoder-DecoderNetworkStructureDiagram目前应用在机器翻译任务上的深度神经网络模型主要有基于CNN的机器翻译模型、基于RNN的机器翻译模型以及基于注意力机制的Transformer机器翻译模型。2.2.1卷积神经网络机器翻译模型卷积神经网络最先应用于图像处理,后又应用于手写数字识别任务。在机器翻译任务中,Dauphin等人的工作[47]展示了如何通过使用多层卷积神经网络来构造并训练一个高性能的语言模型。该模型使用一句话构成的词嵌入作为输入,每一行表示一个词的词嵌入,在处理文本时,卷积核通常只能覆盖上下几行的词,因此设置卷积核宽度与输入词嵌入宽度一致,这样操作不仅可以捕捉到连续词之间的特征,也可以实现在计算同一类特征时的权重共享。FacebookAI团队实现了基于卷积神经网络的机器翻译模型[5],通过对模型进行训练可以获得句子当中各组成成分的语义特征,然后通过学习到的语义特征将源语言句子翻译为目标语言句子,得到翻译结果。2.2.2循环神经网络翻译模型RNN的核心思想是使用经过量化后的句子的序列信息进行特征提取,与普通的FNN不同的是,RNN在FNN的基础上加入了循环机制,这样操作使得RNN可以学习到甚至前后没有关联的词语之间的信息,但是当需要翻译的句子过长时,RNN依然存在长距离依赖问题[48]且会导致训练过程中的梯度消失和梯度爆炸问题。为解决RNN在训练中遇到的这些问题,引入了长短时记忆(LongShort-TermMemory,简称LSTM)[49]对RNN进行改进。图2.3为一个基于注意力机制的双向LSTM蒙汉机器翻译模型结构图:
基于半监督方法的蒙汉机器翻译的研究14图2.3基于注意力机制的双向LSTM蒙汉机器翻译模型结构图Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是将源语言句子F转换为矩阵H表示,矩阵中的每一列表示句子中每个词的词嵌入。在编码阶段源语言句子的向量表示会通过双向LSTM结构进行正反向的充分学习,使得输入可以充分考虑上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(为编码器函数,emb)(为该词语的向量表示,通过这两个函数得到if的两个向量表示,然后将两个向量连接成双向向量,最后将这些向量拼接为矩阵H。在解码阶段Decoder每次输出一个词,Decoder的隐层状态jz是一个用来表示先前的目标词11je的固定长度的向量。jz与隐层状态ih进行相似度计算:),(1jiijzhsim(2-9)sim)(函数为相似度计算函数,该函数有多种选择方式,本文使用点积后对注意力向量归一化的方式进行计算:Tkkjijija1)exp()exp((2-10)上下文向量jC通过注意力向量ija和隐层状态ih加权后求平均得到:
【参考文献】
相关期刊论文 前5条
1 银花;王斯日古楞;艳红;;基于短语的蒙汉统计机器翻译系统的设计与实现[J];内蒙古师范大学学报(自然科学汉文版);2011年01期
2 百顺;;基于派生文法的日—蒙动词短语机器翻译研究[J];中文信息学报;2008年02期
3 侯宏旭;刘群;那顺乌日图;;基于实例的汉蒙机器翻译[J];中文信息学报;2007年04期
4 娜步青;;基于统计的蒙汉机器翻译系统研究[J];内蒙古农业大学学报(自然科学版);2005年04期
5 冯志伟;机器翻译——从实验室走向市场[J];语言文字应用;1997年03期
相关硕士学位论文 前2条
1 王洪彬;多粒度蒙古文汉文神经网络机器翻译研究[D];内蒙古大学;2018年
2 苏传捷;基于层次短语模型的蒙—汉统计机器翻译研究[D];内蒙古大学;2014年
本文编号:2879722
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2879722.html