融合多语编码信息的神经机器翻译研究
发布时间:2018-04-27 06:15
本文选题:神经机器翻译 + 上下文向量 ; 参考:《哈尔滨工业大学》2017年硕士论文
【摘要】:近几年,深度学习的迅速发展和普及,对机器翻译产生了极大的影响,使得基于深度学习的神经网络机器翻译(NMT)应用超越了统计机器翻译(SMT)。神经机器翻译中,解码器是根据编码器对源语言的抽象表示预测目标词序列的,正是这种抽象表示为多语机器翻译提供了可能。由于平行的语料表达的语义相同,因此编码之后的向量信息是存在着某种联系的。如果能够通过融合编码信息的方法强化完善语义向量,就可以提升翻译性能。本课题在三语平行语料上展开了融合编码信息神经机器翻译的研究,课题的研究内容包括以下几部分:(1)对比分析实验平台Groundhog和Nematus在不同规模的数据集上的实验结果,确定课题研究的实验平台。通过实验为基线系统选取合适的词嵌入的维度。使用中英日三语语料在Nematus上训练英文日文翻译系统和中文日文翻译系统作为课题研究的基线系统。(2)多语编码信息融合的神经机器翻译模型以及融合方法探究。课题介绍使用简单的向量拼接的方法把两种输入语言的编码信息融合,生成一个新的包含两种输入语言信息的中间向量,用它解码得到目标语言句子。然后又提出一种新的融合多语编码信息的翻译模型,在得到两种输入语言的编码信息之后,分别计算各自含注意力信息的上下文向量,把得到的新向量作为单层神经网的输入,信息融合得到语义丰富而全面的上下文向量,作为解码器的输入生成目标语言。最后一部分工作是探究其他信息融合的方法。融合后的向量包含了两种输入语言的语义信息。因此寻找适合的融合方法,使不同输入语言的编码信息完美的结合在一起进行解码,对提升模型效果是至关重要的。(3)主要研究使用中间语做过渡的神经机器翻译模型。课题研究的中间语言也称中轴语,对本课题而言,中轴语是中文,引入中轴语有两个原因,一是为避免融合模型中的多语输入问题;其次能够充分利用现有的英文中文语料和性能较好的中文译日文模型。验证了该方法的有效性之后,本课题尝试将中轴语模型和编码信息融合模型结合在一起,得到中轴语框架下的编码信息融合模型。因为翻译模型自身的误差,该模型的性能虽然比中轴语翻译模型好却比不上编码信息融合模型。
[Abstract]:This paper proposes a new method of fusion coding information neural machine translation .
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.2
【相似文献】
相关期刊论文 前4条
1 王志军;;让KMPlayer显示更完备的编码信息[J];电脑迷;2009年01期
2 马德康;;利用广播电台发播时间编码信息[J];陕西天文台台刊;1984年02期
3 朱营琢;郑联语;董洪飞;孙香云;;基于元数据的制造资源编码信息集成研究[J];成组技术与生产现代化;2010年01期
4 刘毅敏;史作锋;;编码信息红外发射与接收器[J];微计算机信息;2007年14期
相关硕士学位论文 前6条
1 刘笛;融合多语编码信息的神经机器翻译研究[D];哈尔滨工业大学;2017年
2 刘芳芳;外事文本机器翻译译文差异的量化研究[D];北京第二外国语学院;2017年
3 方菲;商务英语机器翻译汉译错误分析[D];广东外语外贸大学;2017年
4 李荣蓉;汉英在线机器翻译研究[D];南昌大学;2017年
5 付思寒;机器翻译的译后编辑—一项以Trados为工具的《翻译与网站本地化》(节选)翻译报告[D];广东外语外贸大学;2017年
6 谢婧;翻译单位研究:机器翻译路径[D];江南大学;2017年
,本文编号:1809540
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1809540.html