当前位置:主页 > 文艺论文 > 语言艺术论文 >

语料预处理对蒙古文-汉文统计机器翻译的影响

发布时间:2018-10-15 10:29
【摘要】:传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。
[Abstract]:Traditional Mongolian morphology analysis mainly uses the method of dividing Mongolian affix and stem directly and only preserving stem. This method will lose a large amount of semantic information contained in Mongolian affix. Mongolian affixes contain a large number of affixes, which mainly represent the structural features of sentences. Segmentation of affixes does not affect the semantic features of words. If not preprocessed, it will cause a serious problem of data sparsity. Thus affecting the quality of translation. Therefore, based on the existing theories, this paper summarizes and studies the methods of corpus preprocessing, focusing on the influence of Mongolian Wen Ge processing on translation results. The aim is to improve the quality of Mongolian-Chinese statistical machine translation from the particularity of Mongolian morphological analysis. By optimizing the preprocessing method, the BLEU score of machine translation results is increased by 3.22 points compared with baseline system 1.
【作者单位】: 内蒙古大学计算机学院;
【基金】:国家自然科学基金项目:跨汉斯拉夫蒙古文的信息检索关键技术研究(61362028) 内蒙古自治区研究生科研创新项目:蒙古文-汉文语料预处理关键技术的研究(11200-12110201)资助
【分类号】:H085;TP391.1

【相似文献】

相关期刊论文 前10条

1 孙彦;;大型工具书《中国蒙古文古籍总目》正式出版[J];文献;2000年03期

2 华沙宝;蒙古文网络信息技术处理的对策[J];民族语文;2002年06期

3 白云莉;;蒙古文整词输入法的设计与实现[J];内蒙古农业大学学报(自然科学版);2008年03期

4 哈森其木格;;《蒙古文论发展概论》评析[J];内蒙古民族大学学报(社会科学版);2011年03期

5 包力高;;蒙古文[J];民族语文;1980年02期

6 斯钦朝克图;;蒙古文信息处理已进入标准化[J];民族语文;1986年05期

7 雨风;我校全福等七名教师的蒙古文教材获全国少数民族文字优秀教材奖[J];内蒙古大学学报(人文社会科学版);2000年02期

8 申晓亭;;《中国蒙古文古籍总目》题名汉译谈[J];文献;2000年02期

9 巴·萌根其其格;浅谈蒙古文横向缀字授课方式及其应用研究前景[J];内蒙古师范大学学报(教育科学版);2001年03期

10 巴图吉日嘎拉;抢救出版蒙古文文献迫在眉睫[J];蒙古学信息;2004年04期

相关会议论文 前3条

1 道布;;回鹘式蒙古文[A];中国民族古文字[C];1982年

2 道布;;回鹘式蒙古文研究概况[A];中国民族古文字研究[C];1980年

3 申晓亭;;《中国蒙古文古籍总目》——蒙古族历史文化的荟萃与见证[A];中国·内蒙古首届草原文化研讨会论文集[C];2004年

相关重要报纸文章 前7条

1 记者 阿斯钢;蒙古国总统签命令推广回鹘式蒙古文[N];新华每日电讯;2010年

2 金坛;蒙古文:描绘大自然的千姿百态[N];中国民族报;2014年

3 徐恒泰;要全力抓好蒙古文教学资源建设[N];鄂尔多斯日报;2008年

4 孟和;蒙古文古籍汉译出版何日放异彩[N];中国新闻出版报;2010年

5 通讯员 杨伟;托忒蒙古文信息平台建设取得新进展[N];新疆科技报(汉);2012年

6 苏日塔拉图;我市将逐步在蒙古族学校普及嘎拉图蒙古文字体库[N];鄂尔多斯日报;2008年

7 本报记者 王婧姝邋实习生 兰宇;民文应用系统开发,让少数民族进入信息化时代[N];中国民族报;2008年

相关博士学位论文 前6条

1 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年

2 达古拉;《清内秘书院蒙古文档案汇编》语言研究[D];内蒙古大学;2012年

3 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年

4 莎日娜;乌兰巴托版蒙古文译本《今古奇观》研究[D];中国社会科学院研究生院;2010年

5 王桂荣;蒙古文字结构研究[D];内蒙古大学;2011年

6 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年

相关硕士学位论文 前10条

1 常红梅;衮布扎布语言论著中的蒙古文阿里嘎礼研究[D];内蒙古大学;2013年

2 宋莉;蒙古文字造形元数据的分类编号探讨[D];内蒙古农业大学;2015年

3 翟倩倩;东三省蒙古语媒介现状初探[D];内蒙古大学;2015年

4 红梅;蒙古文《甘珠尔》目录中的佛教名词术语的研究[D];内蒙古大学;2015年

5 张影;蒙古贞蒙古文对联研究[D];沈阳师范大学;2016年

6 玲玲;呼和浩特市指路标牌的蒙古文应用研究[D];内蒙古师范大学;2016年

7 金苏日娜;中外儿童读物蒙古文翻译活动研究[D];西北民族大学;2017年

8 黄荣;蒙古文古籍形制的演变概况[D];内蒙古大学;2010年

9 雪梅;蒙古文教育资源库的设计与实现[D];内蒙古师范大学;2006年

10 包艳花;蒙古文识别文本后处理相关技术研究[D];内蒙古大学;2007年



本文编号:2272260

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2272260.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bbb9d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com