面向受限领域的汉蒙统计机器翻译方法研究

发布时间:2020-11-17 08:25
   近年来,机器翻译研究得到了学术界和工业界的极大重视,翻译性能不断提高。蒙古语作为我国重要的少数民族语言之一,汉蒙统计机器翻译的研究也同样受到了广泛重视。然而,汉蒙统计机器翻译在数据稀疏、语序差异、形态差异上面临很大的挑战。由于人工构建语料库费时费力,且短期内难以扩充到很大规模。因此,从研究方法上针对汉蒙机器翻译面临的主要困难进行改进,对于提升汉蒙机器翻译的译文质量,推动机器翻译在专业领域的应用,具有重要的意义。本文在有限平行语料背景下,针对受限领域汉蒙机器翻译面临的形态差异、语序差异、数据稀疏,开展了五项关键技术研究:融合未标注文本信息的蒙古语形态切分、词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法、系统融合。论文的主要工作和创新点归纳如下:1、针对汉蒙形态非对称,提出了一种融合未标注文本信息的蒙古语形态切分方法。蒙古语是形态丰富的黏着语,而汉语是孤立语,汉蒙之间的形态差异给机器翻译建模带来了极大地挑战。本文提出了一种融合未标注文本信息的形态切分方法。首先使用条件随机场结合标注数据对蒙古语切分,然后针对切分错误,提出了一种基于词汇的切分模型,该模型将标注数据作为启发式信息,从大量未标注文本中学习到对切分有帮助的知识。最后,本文提出了错误修正方法。2、针对短语翻译概率估计不准确,提出了一种词素化加权模型。汉蒙数据稀疏导致翻译模型中的短语翻译概率的估计不够准确,相应概率信息不足以体现短语对之间互译的可靠性。本文提出了一种词素化加权的方法,通过对蒙古语词序列分解为词素序列,进而对短语翻译概率进行更好地估计。另外,本文提出了三种融合策略将词素化加权融入汉蒙机器翻译基线系统中。实验结果表明,该方法可以更合理地对短语对之间互译可靠性进行估计。3、针对汉蒙语序差异大,提出了一种融入汉语同义词信息的调序模型。汉蒙语序差异大且面临严重的数据稀疏,调序问题一直是汉蒙机器翻译面临的主要困难之一。本文将汉语同义词信息融入调序模型的建模过程中。本文假设同义词或者同义短语在某种程度上可以共享调序实例,这样就可以消解数据稀疏对调序模型的影响。此外,本文将基于同义词的调序模型以特征函数的方式融入基线翻译系统中,改善了译文的流利度。4、针对汉蒙短语对规模较小,提出了一种基于词素媒介的翻译方法。由于汉蒙双语平行语料库的规模较小,从平行语料中抽取出来的短语对的规模也较小,这严重地制约了汉蒙机器翻译的性能。本文从蒙古语的形态特征出发,将蒙古语词素作为媒介,构建汉语—蒙古语词素、蒙古语词素—蒙古语机器翻译系统。在不增加双语语料的基础上,在短语层面上通过这两个机器翻译系统的短语翻译表和调序模型构建出新的翻译知识。构建出来的短语翻译表和调序模型分别以多路径解码和特征函数的形式融入基线系统中。5、采用系统融合策略作为统一框架,将词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法有机融合。本文提出了词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法,分别消解了汉蒙统计机器翻译中的短语翻译概率的估计不够准确、汉蒙语序差异大、短语对规模较小等问题。本文对这三个方法分别与基线系统融合而产生的不同n-best列表进行词汇级别系统融合,并采用基于TER的方法进行翻译假设的对齐。实验结果显示,系统融合可以进一步显著提高译文的质量。本文实验采用的训练集规模为67288句对日常用语、22万词条双语词典和500句对农业双语语料。另外,在日常用语中使用的测试语料为500句对,农业领域中所使用的测试语料为200句对。在日常用语测试集上,本文方法的机器翻译BLEU值最高提升2.16个百分点;在农业领域测试集上,本文方法的机器翻译BLEU值最高提升3.36个百分点。
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2017
【中图分类】:TP391.2
【部分图文】:

官方语言,蒙古国,哈萨克斯坦,存在形态


跨语言实时沟通工具已经走进了人们的日常生活。??我国是一个统一的多民族国家,语种多、文种多是我国的国情。在55个少??数民族中有53个民族拥有自己的语言、22个民族拥有自己的文字。蒙古语产生??于9-10世纪,属于阿尔泰语系蒙古语族,主要使用者是蒙古族,主要地区分布??在中华人民共和国北部各省(内蒙古、化宁、吉林及黑龙江省)、蒙古国、俄罗??斯联邦北亚地区(布里亚特共和国、图瓦共和国、阿尔泰边疆区、阿尔泰共和国)。??同时,蒙古语也是我国政府文献所使用的屯种语言之一。??语言文字承载了信息传播和交流的作用,在民族地区,少数民族语言则是进??行信息交流的重要工具。在互联网为代表的信息时代,语言文字已经成为重要??的信息载体。语言信息处理技术,特别是少数民族语言信息处理技术的形成和不??断发展对于延续、保护和研究少数民族的言语和文字尤其重要,对于保护少数民??族的文化,促进少数民族的经济和社会发展都具有重要意义。??1998年,内蒙古大学蒙古语文研究所、中科院计算所、北京大学计算语言学??研巧所承担了国家863项目"面向政府文献的汉蒙机器辅助翻译系统"。汉蒙机??器翻译方法包括基于规则、基于实例和基于统计的研究方法。汉蒙机器翻译对于??促进经济发展、民族交流、文化保护与研巧等方面都有着重要的作用。??

蒙语,示例


通过图1.2可W看出,汉语和蒙古语在语序上区别很大。调序是机器翻译中??最困难的问题之一,有研究证实调序是NPhard问题,穷举出所有可能的结果并??不现实[i4-is]。因此,如何找出一个符合流利度要求的译文将是一件十分困难的事??情,特别是对于源语言和目标语言语序差异很大的语言对。??同时,汉蒙语序差异大直接影响了机器翻译译文质量。一方面,在机器翻译??训练过程中,首先需要训练双语词对齐。语序上的不一致影响了词对齐结果的准??确性,进而对短语对的抽取和翻译规则概率的估计造成不利的影响,最终导致翻??译模型的质量不高。另一方面,在解码过程中,语序的不一致导致解码器很难选??择合适的词序,最终影响了译文的流利度。因此,汉蒙语序上的差异为机器翻译??的研究工作带来了极大地挑战。??1.2.3数据稀疏严重??数据规模的大小对于统计学习模型有着重要的影响tis-W。目前,统计机器翻??译的工作原理是在给定的源语言字符串的基础上,捜索条件概率最高的目标语言??

短语结构树


2.3.3.2基于语言学句法的翻译模型??在自然语言处理领域,对语言结构的表达方式有很多种,最常用的是短语结??构树和依存树。短语结构树和依存树如图2.3所示。??IP??ADVP?NP?VP??I?I??AD?PN?W?NP??I?I?I?/\?不过?我?建议??不过?我?接受?DNP?NP??八?M??NP?DEG?NN?他??II?I??PN的建议??I?的??4??图2.3a短语结构树?图2.化依存树??短语结构树指的是W树形结构解析短语间层次关系。依存树直接处理词与词??的关系,结点数目大大减少了,形式上非常简洁。??根据语言结构的不同,语言学句法的方法可W分为两类:??.1)基于短语结构树的翻译模型??19??
【相似文献】

相关期刊论文 前10条

1 徐波;史晓东;刘群;宗成庆;庞薇;陈振标;杨振东;魏玮;杜金华;陈毅东;刘洋;熊德意;侯宏旭;何中军;;2005统计机器翻译研讨班研究报告[J];中文信息学报;2006年05期

2 王正;孙东云;;统计机器翻译系统在网络翻译教学中的应用[J];英语研究;2008年01期

3 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期

4 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[J];中文信息学报;2010年01期

5 刘群;统计机器翻译综述[J];中文信息学报;2003年04期

6 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[J];中文信息学报;2007年01期

7 苗洪霞;蔡东风;宋彦;;基于短语的统计机器翻译方法[J];沈阳航空工业学院学报;2007年02期

8 罗毅;李淼;张建;;一种基于短语统计机器翻译的高效柱搜索解码器[J];计算机应用;2007年08期

9 罗毅;李淼;朱鉴;胡冠龙;;基于短语统计机器翻译解码算法的研究与实现[J];计算机工程与应用;2007年30期

10 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期


相关博士学位论文 前10条

1 崔磊;统计机器翻译领域自适应的研究[D];哈尔滨工业大学;2014年

2 杨振新;面向受限领域的汉蒙统计机器翻译方法研究[D];中国科学技术大学;2017年

3 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年

4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年

5 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年

6 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年

7 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年

8 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年

9 肖桐;树到树统计机器翻译优化学习及解码方法研究[D];东北大学;2012年

10 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年


相关硕士学位论文 前10条

1 程立;融合主题的汉语—纳西的统计机器翻译方法研究[D];昆明理工大学;2015年

2 刘乐;统计机器翻译领域适应性研究[D];苏州大学;2015年

3 玉霞;蒙古文词法分析及其在蒙汉统计机器翻译中的应用[D];内蒙古师范大学;2015年

4 孙辉丰;层次短语翻译模型中翻译规则约束问题的研究[D];南京大学;2015年

5 李强;短语统计机器翻译关键技术研究[D];东北大学;2013年

6 仇伟;基于统计机器翻译的视频描述自动生成[D];上海交通大学;2015年

7 王超超;基于分布式合成语义的统计翻译模型研究[D];苏州大学;2016年

8 刘昊;统计机器翻译领域自适应方法研究[D];苏州大学;2016年

9 李婧萱;基于深度神经网络的统计机器翻译模型研究[D];哈尔滨工业大学;2016年

10 应志野;基于最大熵的机器翻译研究与实现[D];电子科技大学;2016年



本文编号:2887279

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2887279.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户74421***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com