面向受限领域的汉蒙统计机器翻译方法研究
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2017
【中图分类】:TP391.2
【部分图文】:
跨语言实时沟通工具已经走进了人们的日常生活。??我国是一个统一的多民族国家,语种多、文种多是我国的国情。在55个少??数民族中有53个民族拥有自己的语言、22个民族拥有自己的文字。蒙古语产生??于9-10世纪,属于阿尔泰语系蒙古语族,主要使用者是蒙古族,主要地区分布??在中华人民共和国北部各省(内蒙古、化宁、吉林及黑龙江省)、蒙古国、俄罗??斯联邦北亚地区(布里亚特共和国、图瓦共和国、阿尔泰边疆区、阿尔泰共和国)。??同时,蒙古语也是我国政府文献所使用的屯种语言之一。??语言文字承载了信息传播和交流的作用,在民族地区,少数民族语言则是进??行信息交流的重要工具。在互联网为代表的信息时代,语言文字已经成为重要??的信息载体。语言信息处理技术,特别是少数民族语言信息处理技术的形成和不??断发展对于延续、保护和研究少数民族的言语和文字尤其重要,对于保护少数民??族的文化,促进少数民族的经济和社会发展都具有重要意义。??1998年,内蒙古大学蒙古语文研究所、中科院计算所、北京大学计算语言学??研巧所承担了国家863项目"面向政府文献的汉蒙机器辅助翻译系统"。汉蒙机??器翻译方法包括基于规则、基于实例和基于统计的研究方法。汉蒙机器翻译对于??促进经济发展、民族交流、文化保护与研巧等方面都有着重要的作用。??
通过图1.2可W看出,汉语和蒙古语在语序上区别很大。调序是机器翻译中??最困难的问题之一,有研究证实调序是NPhard问题,穷举出所有可能的结果并??不现实[i4-is]。因此,如何找出一个符合流利度要求的译文将是一件十分困难的事??情,特别是对于源语言和目标语言语序差异很大的语言对。??同时,汉蒙语序差异大直接影响了机器翻译译文质量。一方面,在机器翻译??训练过程中,首先需要训练双语词对齐。语序上的不一致影响了词对齐结果的准??确性,进而对短语对的抽取和翻译规则概率的估计造成不利的影响,最终导致翻??译模型的质量不高。另一方面,在解码过程中,语序的不一致导致解码器很难选??择合适的词序,最终影响了译文的流利度。因此,汉蒙语序上的差异为机器翻译??的研究工作带来了极大地挑战。??1.2.3数据稀疏严重??数据规模的大小对于统计学习模型有着重要的影响tis-W。目前,统计机器翻??译的工作原理是在给定的源语言字符串的基础上,捜索条件概率最高的目标语言??
2.3.3.2基于语言学句法的翻译模型??在自然语言处理领域,对语言结构的表达方式有很多种,最常用的是短语结??构树和依存树。短语结构树和依存树如图2.3所示。??IP??ADVP?NP?VP??I?I??AD?PN?W?NP??I?I?I?/\?不过?我?建议??不过?我?接受?DNP?NP??八?M??NP?DEG?NN?他??II?I??PN的建议??I?的??4??图2.3a短语结构树?图2.化依存树??短语结构树指的是W树形结构解析短语间层次关系。依存树直接处理词与词??的关系,结点数目大大减少了,形式上非常简洁。??根据语言结构的不同,语言学句法的方法可W分为两类:??.1)基于短语结构树的翻译模型??19??
【相似文献】
相关期刊论文 前10条
1 徐波;史晓东;刘群;宗成庆;庞薇;陈振标;杨振东;魏玮;杜金华;陈毅东;刘洋;熊德意;侯宏旭;何中军;;2005统计机器翻译研讨班研究报告[J];中文信息学报;2006年05期
2 王正;孙东云;;统计机器翻译系统在网络翻译教学中的应用[J];英语研究;2008年01期
3 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期
4 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[J];中文信息学报;2010年01期
5 刘群;统计机器翻译综述[J];中文信息学报;2003年04期
6 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[J];中文信息学报;2007年01期
7 苗洪霞;蔡东风;宋彦;;基于短语的统计机器翻译方法[J];沈阳航空工业学院学报;2007年02期
8 罗毅;李淼;张建;;一种基于短语统计机器翻译的高效柱搜索解码器[J];计算机应用;2007年08期
9 罗毅;李淼;朱鉴;胡冠龙;;基于短语统计机器翻译解码算法的研究与实现[J];计算机工程与应用;2007年30期
10 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期
相关博士学位论文 前10条
1 崔磊;统计机器翻译领域自适应的研究[D];哈尔滨工业大学;2014年
2 杨振新;面向受限领域的汉蒙统计机器翻译方法研究[D];中国科学技术大学;2017年
3 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年
6 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年
7 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
8 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年
9 肖桐;树到树统计机器翻译优化学习及解码方法研究[D];东北大学;2012年
10 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
相关硕士学位论文 前10条
1 程立;融合主题的汉语—纳西的统计机器翻译方法研究[D];昆明理工大学;2015年
2 刘乐;统计机器翻译领域适应性研究[D];苏州大学;2015年
3 玉霞;蒙古文词法分析及其在蒙汉统计机器翻译中的应用[D];内蒙古师范大学;2015年
4 孙辉丰;层次短语翻译模型中翻译规则约束问题的研究[D];南京大学;2015年
5 李强;短语统计机器翻译关键技术研究[D];东北大学;2013年
6 仇伟;基于统计机器翻译的视频描述自动生成[D];上海交通大学;2015年
7 王超超;基于分布式合成语义的统计翻译模型研究[D];苏州大学;2016年
8 刘昊;统计机器翻译领域自适应方法研究[D];苏州大学;2016年
9 李婧萱;基于深度神经网络的统计机器翻译模型研究[D];哈尔滨工业大学;2016年
10 应志野;基于最大熵的机器翻译研究与实现[D];电子科技大学;2016年
本文编号:2887279
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2887279.html