西里尔蒙古文—汉文机器翻译系统的实现

发布时间:2024-05-20 21:54
  多民族语言机器翻译的研究对维护我国民族地区的社会稳定和接受兄弟民族的先进技术、加强各民族交流、传承并发展民族文化等都具有极为重要的意义。西里尔蒙古文-汉文机器翻译研究面临语言类型跨度大、语言现象复杂、语言资源缺乏、少数民族语言信息处理基础技术薄弱等问题。其中复杂形态语言机器翻译建模、资源缺乏语言的机器翻译等问题也是机器翻译研究本身面临的重要学科问题。本文利用收集整理的多语言语言资源、知识资源及开源工具搭建了蒙汉统计机器翻译平台。在该研究中,为了提高基于统计的西里尔蒙古文-汉文机器翻译的性能和解决译文中出现的大量的未登录词,本文从以下几个方面进行了研究和实验:(1)建立近22万余句对的西里尔蒙古文-汉语双语语料库,在建立双语语料库的具体过程中拟定了西里尔蒙古文-汉语双语语料库建设标准。(2)建立西里尔蒙古语语料库的预处理步骤:如编码统一转换为UTF-8格式,缩略语转写,大小写转换等。(3)通过加入蒙-汉人名词典、地名词典及拼写数词、时间词的正则表达式规则来识别与翻译对命名实体进行有效的翻译。(4)对蒙古语格附加成分、复数词缀、领属附属附加成分的双重格进行详细分析,并进行粗粒度切分。其中命...

【文章页数】:129 页

【学位级别】:博士

【部分图文】:

图2-1双语语料库的语料组成

图2-1双语语料库的语料组成

侣对巧迎读在而肯阅读理解化没饥利难,适合制化連梢料巧的时,W巧vk化川古文灰化,尽化囊括丫进来。??农性和巧衡他语料化当"文学巧和非文学类。我们不仅收化/n皮书和?些杂文W及它们的译文还"U巧,小说,新聞,电术,产品说明巧各个领巧的巧巧巧料巧。??翻降存储资料、翻弹文巧、巧典、山....


图25西里尔蒙古文的构词构形特点

图25西里尔蒙古文的构词构形特点

我们品然化该对词语进行形态分析,因为我们不Ilf能存储巧-个??可能存在的巧。如巧不算派生巧巧缀,那么一个絮古巧的?个动巧至少有1710??种变化形式63?64?(西巧尔蒙古文中,扣部分虚词也能成为巧缀拼.气在词干么后,??所W么派生史多种变化形式);如果把派化后缀加起来,那么从....


图3一数词单位对比图

图3一数词单位对比图

?巧;巧叫诚絮命打义化W別???建简中数词W-??巧的规则红L合而成,比如"xopuH?rypaB"(二十^)。在机器??翻弹111,前两种数乂变化形乂迎过简中.的I化配和映射就ii":A实现识别和翻译,??似足葵古文安合数巧的构成规排复杂《巧,需巧合圳.的整排.归纳分巧实视K翻....


图3一5蒙文人名直译汉文人名

图3一5蒙文人名直译汉文人名



本文编号:3979173

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/3979173.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3f33d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com