低资源语言神经机器翻译关键技术研究
发布时间:2021-01-29 04:29
机器翻译,研究如何利用计算机自动地实现不同语言之间的相互转化,是自然语言处理的重要研究方向之一。近年来,随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译向神经机器翻译转化。经过大规模、高质量的平行语料训练,神经机器翻译的性能在多个翻译任务中都达到了媲美人类手工翻译的水平。但除英语、汉语等少数语言外,世界上大多数语言对之间都不存在大规模的平行语料,属低资源语言,这给神经机器翻译和应用研究带来了新的课题。本文旨在探索神经机器翻译技术在低资源语言场景下的应用,为此分别研究了三种情况下汉语与“一带一路”部分国家语言和我国少数民族语言之间的机器翻译技术。本文的主要贡献包括:☆针对低资源语言神经机器翻译中的数据匮乏问题,本文在拥有少数平行语料的前提下,结合语料对齐和语法纠错等技术,提出了一种基于语义相关词替换策略的数据增强方法,通过自动增加平行语料的数量以达到提升神经机器翻译性能的目标。实验结果表明,该方法在蒙古语、藏语、维吾尔语和阿拉伯语与汉语之间的翻译任务中取得了很好的性能,最高有3.06个BLEU点的提升。☆针对一些语言对之间不存在平行语料的问题,本文分...
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
图2-1?Transformer神经机器翻译模型整体架构??(1)?Transformer?模型框架??与先前的神经机器翻译模型类似,Vaswani等人提出的Transformer模型也??是由编码器(Encoder)和解码器(Decoder)两部分组成,最大的不同是,??
低资源机器翻译????*??y??<r一^一^接使用源语言??言平行语料^??臟用?间麵??有监4方法I?|无监督方法|?|半监督方法??I反向翻译;?1? ̄无监督 ̄:?!枢轴语言??:数据增强i?!预训练!?;双语挖掘!??!迁移学习?:......:?!?......?!??!?元学习?丨?1?'?1?1??;???????!??I?1??图2-2低资源语言机器翻译分类??2.2.1有监督低资源语言神经机器翻译方法??低资源语言神经机器翻译方法中的监督方法,指的是在整个模型训练过程中,??需要直接提供源语言和目标语言之间的双语平行语料。监督方法又可以进一步可??以分为以下四种方法:反向翻译(Back?Translation?)、数据增强(Data?Augmentation?)、??迁移学习(Transfer?Learning)和元学习(Meta-Learning)方法。??反向翻译:反向翻译[34]的思想是利用现有大规模的双语平行语料并结合大??规模目标语言单语数据提升神经机器翻译性能的一种方法。其主要步骤为;首先,??通过大规模的双语平行语料训练一个目标语言-源语言(记作T-S)的机器翻译模型;??其次,利用大规模的目标语言单语数据经过T-S翻译模型翻译成源语言,生成大??规模的源语言与目标语言的伪平行句对(质量取决于T-S翻译模型的性能)。最后,??将原始平行语料和伪平行语料进行合并共同训练源语言-目标语言机器翻译模型??(记作S-T)。值得一提的是,反向翻译方法在国内外机器翻译评测比赛??(WMT,CCMT)中己经被认为是提升机器翻译性能必不可少的步骤印1
二--y?--二--??j?/?蠔**?^?*—?我?。(我有-个妹妹)=。88?i?I?y?一)??;//?我有;弟^i?语法约播??!?^-<:?!???ZZ?[??、、U??<s>?y7?I?!源句子我H?一个弟弟他!?K据增强??!???^?1?1?目标句子?I?have?a?brother,he?<s>?i?/??1?I诹新增)我有—个妹妹.他<S>?:??/??L??'?i.?_?f.*1L?l^yi!5!51.^;?Ir.?V'T?\??图3-1数据增强神经机器翻译技术模型框架图??3.2.1语义相关集生成??假如a,?b表示为两个单词,是它们在D维向量空间中的对应单词??向量,则可以通过计算整个向量空间中单词之间的余弦相似度来获得与语义相关??词:??a*b??cos(a^b)?=??(3.1)??Ikllll^li??其中,||fl||是向量a的L2范数,是两个向量的点乘。??语义相关集的生成步骤为:首先,我们通过大规模的单语种数据训练了一个??词向量模型,并选择余弦相似度值大于阈值的语义相关词(实验中??分别使用的阈值为0.6,?0.8,?0.9,?0.95),并生成了语义相关集多。??3.2.2语义相关词替换??给定一个句子对(S,T)和某个单词\在3中的位置i,首先,我们通过遍历??语义相关集0,分别将S中的单词&替换成语义相关集中的单词然后,通过??23??
【参考文献】:
期刊论文
[1]基于多编码器多解码器的大规模维汉神经网络机器翻译模型[J]. 张金超,艾山·吾买尔,买合木提·买买提,刘群. 中文信息学报. 2018(09)
[2]基于RNN和CNN的蒙汉神经机器翻译研究[J]. 包乌格德勒,赵小兵. 中文信息学报. 2018(08)
[3]融合先验信息的蒙汉神经网络机器翻译模型[J]. 樊文婷,侯宏旭,王洪彬,武静,李金廷. 中文信息学报. 2018(06)
[4]基于CNN词根形态选择模型的改进蒙汉机器翻译研究[J]. 乌尼尔,苏依拉,刘婉婉,仁庆道尔吉. 中文信息学报. 2018(05)
[5]藏汉神经网络机器翻译研究[J]. 李亚超,熊德意,张民,江静,马宁,殷建民. 中文信息学报. 2017(06)
[6]神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 哈里旦木·阿布都克里木,刘洋,孙茂松. 清华大学学报(自然科学版). 2017(08)
[7]神经机器翻译前沿进展[J]. 刘洋. 计算机研究与发展. 2017(06)
[8]基于藏语字性标注的词性预测研究[J]. 龙从军,刘汇丹,诺明花,吴健. 中文信息学报. 2015(05)
[9]基于短语的汉维/维汉统计机器翻译[J]. 董兴华,周俊林,郭树盛,吐尔洪·吾司曼. 计算机工程. 2011(09)
[10]基于短语的蒙汉统计机器翻译系统的设计与实现[J]. 银花,王斯日古楞,艳红. 内蒙古师范大学学报(自然科学汉文版). 2011(01)
硕士论文
[1]基于Web的藏汉双语可比语料库构建技术研究[D]. 庞伟.中央民族大学 2015
本文编号:3006273
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
图2-1?Transformer神经机器翻译模型整体架构??(1)?Transformer?模型框架??与先前的神经机器翻译模型类似,Vaswani等人提出的Transformer模型也??是由编码器(Encoder)和解码器(Decoder)两部分组成,最大的不同是,??
低资源机器翻译????*??y??<r一^一^接使用源语言??言平行语料^??臟用?间麵??有监4方法I?|无监督方法|?|半监督方法??I反向翻译;?1? ̄无监督 ̄:?!枢轴语言??:数据增强i?!预训练!?;双语挖掘!??!迁移学习?:......:?!?......?!??!?元学习?丨?1?'?1?1??;???????!??I?1??图2-2低资源语言机器翻译分类??2.2.1有监督低资源语言神经机器翻译方法??低资源语言神经机器翻译方法中的监督方法,指的是在整个模型训练过程中,??需要直接提供源语言和目标语言之间的双语平行语料。监督方法又可以进一步可??以分为以下四种方法:反向翻译(Back?Translation?)、数据增强(Data?Augmentation?)、??迁移学习(Transfer?Learning)和元学习(Meta-Learning)方法。??反向翻译:反向翻译[34]的思想是利用现有大规模的双语平行语料并结合大??规模目标语言单语数据提升神经机器翻译性能的一种方法。其主要步骤为;首先,??通过大规模的双语平行语料训练一个目标语言-源语言(记作T-S)的机器翻译模型;??其次,利用大规模的目标语言单语数据经过T-S翻译模型翻译成源语言,生成大??规模的源语言与目标语言的伪平行句对(质量取决于T-S翻译模型的性能)。最后,??将原始平行语料和伪平行语料进行合并共同训练源语言-目标语言机器翻译模型??(记作S-T)。值得一提的是,反向翻译方法在国内外机器翻译评测比赛??(WMT,CCMT)中己经被认为是提升机器翻译性能必不可少的步骤印1
二--y?--二--??j?/?蠔**?^?*—?我?。(我有-个妹妹)=。88?i?I?y?一)??;//?我有;弟^i?语法约播??!?^-<:?!???ZZ?[??、、U??<s>?y7?I?!源句子我H?一个弟弟他!?K据增强??!???^?1?1?目标句子?I?have?a?brother,he?<s>?i?/??1?I诹新增)我有—个妹妹.他<S>?:??/??L??'?i.?_?f.*1L?l^yi!5!51.^;?Ir.?V'T?\??图3-1数据增强神经机器翻译技术模型框架图??3.2.1语义相关集生成??假如a,?b表示为两个单词,是它们在D维向量空间中的对应单词??向量,则可以通过计算整个向量空间中单词之间的余弦相似度来获得与语义相关??词:??a*b??cos(a^b)?=??(3.1)??Ikllll^li??其中,||fl||是向量a的L2范数,是两个向量的点乘。??语义相关集的生成步骤为:首先,我们通过大规模的单语种数据训练了一个??词向量模型,并选择余弦相似度值大于阈值的语义相关词(实验中??分别使用的阈值为0.6,?0.8,?0.9,?0.95),并生成了语义相关集多。??3.2.2语义相关词替换??给定一个句子对(S,T)和某个单词\在3中的位置i,首先,我们通过遍历??语义相关集0,分别将S中的单词&替换成语义相关集中的单词然后,通过??23??
【参考文献】:
期刊论文
[1]基于多编码器多解码器的大规模维汉神经网络机器翻译模型[J]. 张金超,艾山·吾买尔,买合木提·买买提,刘群. 中文信息学报. 2018(09)
[2]基于RNN和CNN的蒙汉神经机器翻译研究[J]. 包乌格德勒,赵小兵. 中文信息学报. 2018(08)
[3]融合先验信息的蒙汉神经网络机器翻译模型[J]. 樊文婷,侯宏旭,王洪彬,武静,李金廷. 中文信息学报. 2018(06)
[4]基于CNN词根形态选择模型的改进蒙汉机器翻译研究[J]. 乌尼尔,苏依拉,刘婉婉,仁庆道尔吉. 中文信息学报. 2018(05)
[5]藏汉神经网络机器翻译研究[J]. 李亚超,熊德意,张民,江静,马宁,殷建民. 中文信息学报. 2017(06)
[6]神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 哈里旦木·阿布都克里木,刘洋,孙茂松. 清华大学学报(自然科学版). 2017(08)
[7]神经机器翻译前沿进展[J]. 刘洋. 计算机研究与发展. 2017(06)
[8]基于藏语字性标注的词性预测研究[J]. 龙从军,刘汇丹,诺明花,吴健. 中文信息学报. 2015(05)
[9]基于短语的汉维/维汉统计机器翻译[J]. 董兴华,周俊林,郭树盛,吐尔洪·吾司曼. 计算机工程. 2011(09)
[10]基于短语的蒙汉统计机器翻译系统的设计与实现[J]. 银花,王斯日古楞,艳红. 内蒙古师范大学学报(自然科学汉文版). 2011(01)
硕士论文
[1]基于Web的藏汉双语可比语料库构建技术研究[D]. 庞伟.中央民族大学 2015
本文编号:3006273
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3006273.html
最近更新
教材专著