当前位置:主页 > 科技论文 > 软件论文 >

稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究

发布时间:2018-08-13 08:52
【摘要】:该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨.
[Abstract]:In this paper, the problem of constructing statistical machine translation system without direct parallel training data from foreign language to Chinese is studied by using English as an intermediate language. In this paper, the machine translation method based on intermediate language is divided into three levels: system level, corpus level and phrase level. In the improved corpus level interlanguage method proposed in this paper the translation performance of the translation system is improved by expanding the scale of generating training data and optimizing the quality of word alignment. In traditional phrase-level interlanguage methods, due to the existence of interlanguage phrases which can not be fused, many high-quality phrase pairs can not be generated. In this paper, the improved method is proposed to expand the translation table of phrases by decoding and generating. Then improve the quality of translation. This paper systematically compares the advantages and disadvantages of three interlanguage methods. It is found by manual analysis that none of them can achieve the best translation performance in all translation tasks. Therefore, the interlanguage method of corpus-phrase fusion is proposed, which achieves the best translation performance in all translation tasks. Finally, the machine translation system of Bengali, Tamil, Uzbek, Hungarian to Chinese was successfully constructed. Compared with the baseline system, the proposed method achieves an increase of 0.8 to 2.8 BLEU points on the test sets of four foreign languages.
【作者单位】: 东北大学自然语言处理实验室;
【基金】:中央高校基本科研业务专项资金(N140406003) 国家留学基金 国家自然科学基金(61272376,61300097)资助~~
【分类号】:TP391.2

【相似文献】

相关期刊论文 前10条

1 李筱青,陈晖,陈意云;一种新型类型化中间语言的优化实现技术[J];计算机工程;2005年05期

2 熊文新;宋柔;袁琦;;多语信息交流平台的中间语言系统及支撑环境设计[J];计算机科学;2006年08期

3 张涛;李迅波;;软PLC的转换中间语言模型的建立与研究[J];微计算机信息;2007年35期

4 申利民,唐勇,柯汉水,陈晓谦;基于中间语言的逆编译方法[J];东北重型机械学院学报;1997年01期

5 CSDN;;微软中间语言和即时编译[J];程序员;2002年04期

6 胡荣;范明钰;王光卫;宫亚峰;;C逆编译系统的中间语言的一种优化表示方法[J];计算机系统应用;2010年09期

7 马希文;树计算机与树程序[J];计算机学报;1978年01期

8 黎浩宏;;C#语言委托与事件机制的探讨[J];福建电脑;2009年11期

9 刘洪辉;罗胜荣;黎利红;;一种实用的计算机图形自动评判方法[J];电脑知识与技术;2006年23期

10 熊贻青;;针对微软中间语言的逆向分析[J];计算机应用;2006年07期

相关会议论文 前2条

1 熊文新;;提升自然语言向中间语言转换准确性的增强处理[A];第二届全国学生计算语言学研讨会论文集[C];2004年

2 李延莉;宫皓宇;;浅谈.NET[A];“加入WTO和科学技术与吉林经济发展——机遇·挑战·责任”吉林省第二届科学技术学术年会论文集(上)[C];2002年

相关重要报纸文章 前3条

1 福建 忠英;手机翻译时代的到来[N];电脑报;2004年

2 南京邮电学院 李建忠;“Hello,World!”程序[N];计算机世界;2002年

3 中国科学院自动化研究所 徐波;回归到“通天塔”之前[N];计算机世界;2002年

相关博士学位论文 前1条

1 尹杰;基于编译器中间语言的软件运行时可靠性研究[D];清华大学;2015年

相关硕士学位论文 前4条

1 师光达;基于可比较语料库的术语提取方法研究[D];北京化工大学;2015年

2 韩冬;基于虚拟寄存器的中间语言[D];西南交通大学;2009年

3 黄海;基于IDA的代码解析与中间语言翻译[D];解放军信息工程大学;2009年

4 包苏鲁德;多语种机器翻译平台关键技术研究[D];复旦大学;2008年



本文编号:2180481

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2180481.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eaf1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com