低资源语言神经机器翻译关键技术研究

发布时间：2021-01-29 04:29

　　机器翻译,研究如何利用计算机自动地实现不同语言之间的相互转化,是自然语言处理的重要研究方向之一。近年来,随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译向神经机器翻译转化。经过大规模、高质量的平行语料训练,神经机器翻译的性能在多个翻译任务中都达到了媲美人类手工翻译的水平。但除英语、汉语等少数语言外,世界上大多数语言对之间都不存在大规模的平行语料,属低资源语言,这给神经机器翻译和应用研究带来了新的课题。本文旨在探索神经机器翻译技术在低资源语言场景下的应用,为此分别研究了三种情况下汉语与“一带一路”部分国家语言和我国少数民族语言之间的机器翻译技术。本文的主要贡献包括:☆针对低资源语言神经机器翻译中的数据匮乏问题,本文在拥有少数平行语料的前提下,结合语料对齐和语法纠错等技术,提出了一种基于语义相关词替换策略的数据增强方法,通过自动增加平行语料的数量以达到提升神经机器翻译性能的目标。实验结果表明,该方法在蒙古语、藏语、维吾尔语和阿拉伯语与汉语之间的翻译任务中取得了很好的性能,最高有3.06个BLEU点的提升。☆针对一些语言对之间不存在平行语料的问题,本文分...

【文章来源】：中央民族大学北京市 211工程院校 985工程院校

【文章页数】：87 页

【学位级别】：硕士

【部分图文】：

低资源语言神经机器翻译关键技术研究

图２－１?Ｔｒａｎｓｆｏｒｍｅｒ神经机器翻译模型整体架构??（１）?Ｔｒａｎｓｆｏｒｍｅｒ?模型框架??与先前的神经机器翻译模型类似，Ｖａｓｗａｎｉ等人提出的Ｔｒａｎｓｆｏｒｍｅｒ模型也??是由编码器（Ｅｎｃｏｄｅｒ）和解码器（Ｄｅｃｏｄｅｒ）两部分组成，最大的不同是，??

机器翻译,语言,资源,神经

低资源机器翻译????＊??ｙ??＜ｒ一＾一＾接使用源语言??言平行语料＾??臟用?间麵??有监４方法Ｉ?｜无监督方法｜?｜半监督方法??Ｉ反向翻译；?１?￣无监督￣：?！枢轴语言??：数据增强ｉ?！预训练！?；双语挖掘！??！迁移学习?：．．．．．．：?！?．．．．．．?！??！?元学习?丨?１?＇?１?１??；？？？？？？?！??Ｉ?１??图２－２低资源语言机器翻译分类??２．２．１有监督低资源语言神经机器翻译方法??低资源语言神经机器翻译方法中的监督方法，指的是在整个模型训练过程中，??需要直接提供源语言和目标语言之间的双语平行语料。监督方法又可以进一步可??以分为以下四种方法：反向翻译（Ｂａｃｋ?Ｔｒａｎｓｌａｔｉｏｎ?）、数据增强（Ｄａｔａ?Ａｕｇｍｅｎｔａｔｉｏｎ?）、??迁移学习（Ｔｒａｎｓｆｅｒ?Ｌｅａｒｎｉｎｇ）和元学习（Ｍｅｔａ－Ｌｅａｒｎｉｎｇ）方法。??反向翻译：反向翻译［３４］的思想是利用现有大规模的双语平行语料并结合大??规模目标语言单语数据提升神经机器翻译性能的一种方法。其主要步骤为；首先，??通过大规模的双语平行语料训练一个目标语言－源语言（记作Ｔ－Ｓ）的机器翻译模型；??其次，利用大规模的目标语言单语数据经过Ｔ－Ｓ翻译模型翻译成源语言，生成大??规模的源语言与目标语言的伪平行句对（质量取决于Ｔ－Ｓ翻译模型的性能）。最后，??将原始平行语料和伪平行语料进行合并共同训练源语言－目标语言机器翻译模型??（记作Ｓ－Ｔ）。值得一提的是，反向翻译方法在国内外机器翻译评测比赛??（ＷＭＴ，ＣＣＭＴ）中己经被认为是提升机器翻译性能必不可少的步骤印１

框架图,相关集,语义,机器翻译

二－－ｙ?－－二－－??ｊ?／?蠔＊＊?＾?＊—？我?。（我有－个妹妹）＝。８８?ｉ?Ｉ?ｙ?一）??；／／?我有；弟＾ｉ?语法约播??！?＾－＜：?！???ＺＺ?［??、、Ｕ？?＜ｓ＞?ｙ７?Ｉ?！源句子我Ｈ?一个弟弟他！?Ｋ据增强??！?？?＾?１?１?目标句子?Ｉ?ｈａｖｅ?ａ?ｂｒｏｔｈｅｒ，ｈｅ?＜ｓ＞?ｉ?／??１?Ｉ诹新增）我有—个妹妹．他＜Ｓ＞?：？?／??Ｌ??＇?ｉ．?＿?ｆ．＊１Ｌ?ｌ＾ｙｉ！５！５１．＾；?Ｉｒ．?Ｖ＇Ｔ?＼??图３－１数据增强神经机器翻译技术模型框架图??３．２．１语义相关集生成??假如ａ，?ｂ表示为两个单词，是它们在Ｄ维向量空间中的对应单词??向量，则可以通过计算整个向量空间中单词之间的余弦相似度来获得与语义相关??词：??ａ＊ｂ??ｃｏｓ（ａ＾ｂ）?＝??（３．１）??Ｉｋｌｌｌｌ＾ｌｉ??其中，｜｜ｆｌ｜｜是向量ａ的Ｌ２范数，是两个向量的点乘。??语义相关集的生成步骤为：首先，我们通过大规模的单语种数据训练了一个??词向量模型，并选择余弦相似度值大于阈值的语义相关词（实验中??分别使用的阈值为０．６，?０．８，?０．９，?０．９５），并生成了语义相关集多。??３．２．２语义相关词替换??给定一个句子对（Ｓ，Ｔ）和某个单词＼在３中的位置ｉ，首先，我们通过遍历??语义相关集０，分别将Ｓ中的单词＆替换成语义相关集中的单词然后，通过??２３??

【参考文献】：
期刊论文
[1]基于多编码器多解码器的大规模维汉神经网络机器翻译模型[J]. 张金超,艾山·吾买尔,买合木提·买买提,刘群.  中文信息学报. 2018(09)
[2]基于RNN和CNN的蒙汉神经机器翻译研究[J]. 包乌格德勒,赵小兵.  中文信息学报. 2018(08)
[3]融合先验信息的蒙汉神经网络机器翻译模型[J]. 樊文婷,侯宏旭,王洪彬,武静,李金廷.  中文信息学报. 2018(06)
[4]基于CNN词根形态选择模型的改进蒙汉机器翻译研究[J]. 乌尼尔,苏依拉,刘婉婉,仁庆道尔吉.  中文信息学报. 2018(05)
[5]藏汉神经网络机器翻译研究[J]. 李亚超,熊德意,张民,江静,马宁,殷建民.  中文信息学报. 2017(06)
[6]神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 哈里旦木·阿布都克里木,刘洋,孙茂松.  清华大学学报(自然科学版). 2017(08)
[7]神经机器翻译前沿进展[J]. 刘洋.  计算机研究与发展. 2017(06)
[8]基于藏语字性标注的词性预测研究[J]. 龙从军,刘汇丹,诺明花,吴健.  中文信息学报. 2015(05)
[9]基于短语的汉维/维汉统计机器翻译[J]. 董兴华,周俊林,郭树盛,吐尔洪·吾司曼.  计算机工程. 2011(09)
[10]基于短语的蒙汉统计机器翻译系统的设计与实现[J]. 银花,王斯日古楞,艳红.  内蒙古师范大学学报(自然科学汉文版). 2011(01)

硕士论文
[1]基于Web的藏汉双语可比语料库构建技术研究[D]. 庞伟.中央民族大学 2015

本文编号：3006273

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3006273.html

上一篇：基于足底纹的身份识别算法
下一篇：基于低秩与深度学习的图像去噪算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|