融合翻译知识的汉越神经机器翻译研究与实现

发布时间：2020-05-24 23:02

【摘要】：越南位于中南半岛、毗邻我国广西、云南两省,在政治、经济等方面都是我国的重要合作伙伴。在“一带一路”战略下,我国与越南的合作空间巨大,两国当前越来越紧密的经济、文化交流对于两国语言的机器翻译技术提出了越来越迫切的需求。然而,已有的机器翻译技术对于平行语料的需求与语料的稀缺性成为了阻碍这一技术发展的主要矛盾。近年来神经机器翻译技术已经在多种语言对上取得了超越统计机器翻译的性能,并且在译文流畅度等方面取得了空前的成功,但这一技术同样需要大量的平行语料作为训练数据。同时,在过去的统计机器翻译研究过程中的成果也不可忽视。因此,研究如何将统计机器翻译中的翻译知识融合到神经机器翻译框架中成为了当前的研究热点。基于此,本文将上下文约束和语言特性应用于词对齐建模,研究基于双向LSTM的词对齐模型,并进一步研究如何将翻译知识融合到神经机器翻译模型中,主要完成了以下研究工作:(1)基于双向LSTM和语言特性融合的汉越词对齐方法词对齐是多种机器翻译模型(如短语翻译模型、句法翻译模型)的基础,是短语对齐、句法树对齐的依据,是统计机器翻译方法中的重要组成部分。本文使用双向LSTM对词对齐进行建模,引入对齐位置的上下文信息;在此基础上融合汉语-越南语语言差异,基于语言特性约束词对齐关系,通过监督学习调整模型参数,从而获得性能更优的汉越自动词对齐方法。(2)融合词汇翻译概率的汉越神经机器翻译方法神经机器翻译方法的参数解释性差,很难融合词对齐、词典等外部翻译知识;同时,虽然其内部的注意力机制在某种程度上可以反映源语言词语和目标语言词语的对应关系,但这种关系并不具有显式约束。本文提出了一种在神经机器翻译中融合词汇翻译概率的方法。首先使用一个记忆神经网络保存词对齐信息,完成离散特征到连续特征的转换。然后在神经机器翻译的解码阶段,根据目标语言词语及其上下文信息计算目标语言词语与每个源语言词语的对齐概率。最后将这个对齐概率与注意力机制进行融合,从而完成解码阶段目标语言词语的选择。(3)融合翻译知识的汉越神经机器翻译系统该系统包括机器翻译模块、web后端服务模块、web前端服务模块。其中翻译模型的实现基于Google的代码并做了大量改进,主要包括对传统注意力机制的修改,将词汇翻译概率融合到神经机器翻译框架中。该系统对于将翻译知识与神经机器翻译融合的研究具有重要的支撑作用。
【图文】：

模型图,循环神经网络,模型

人提出了一种使用循环神经网络对词对齐进行建模所示的公式对于平行句对中的双语词语对齐进行计 11 1 1 11jJJ J I jNN RNN j j ajS a f ,e t a a , f ,e jae是待对齐的两个词语，，RNNt 是用于计算两个词语对络进行拟合。并且对于第j个对齐ja 的分数的计系11ja 。这里使用的对齐分数是非概率化的分数。人提出的基于循环神经网络的模型如图 3.1 所示，Layer）（将双语词语转化为词向量），隐藏层（HOutput Layer）组成，其中隐藏层由循环神经网络实单的全连接神经网络。模型的参数分别有权重矩阵在 Tamura 等人的模型中，对于前一个词对齐和后的跨度发生改变，即j 1 j 2 j j1a a a a ，那么模型参数中的d 就是一个标签，指出了不同组的参数。

模型图,模型,修饰语,双语

第三章基于双向 LSTM 和语言特性融合的汉越词中：表示汉越双语平行句对中词语为非修饰语时的词对齐，即 1 1jg : e i f N;i ,...,n; j ,...,m a。似地，汉越双语修饰语偏移模型可以由如下公式进行定义：( ) ( )( , ) ( )r f e fl j el ilP A A f A A 融合双向 LSTM 和语言特征的词对齐模型双向 LSTM 词对齐模型定义
【学位授予单位】：昆明理工大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：H085

【参考文献】