基于蒙古文音节分析的文本校对方法研究

发布时间:2021-08-03 20:44
  文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古文使用过程中存在的文本错误问题,本文提出了以音节分析为基础,融合统计特征和蒙古文构词规则的方法,并利用混淆集实现了蒙古文文本的自动校对。本文在蒙古文音节的基础上进行了文本校对的相关研究。首先,本文通过对蒙古文音节切分建立了音节混淆集,并实现了蒙古文真词混淆集的自动生成,然后利用人工补充完善混淆集。在此基础上,本文利用网络爬虫获取相关网络语料,建立了单词级语言模型,实现了蒙古文的真词错误的文本校对。其次,本文在音节的基础上,结合蒙古文构词规则和音节语言模型实现了蒙古文的查错过程,然后利用融合统计特征的音节混淆字典和混淆音节的归一化概率实现了蒙古文的非词错误的校对过程。在蒙古文单词的单字符增减替换方面,相比于基于中间码的校正系统,本文所提出的方法各方面的性能都有所提升。最后,本文利用融合蒙古文文本的上下文语境的方法改善了蒙古文真词错误的校对算法,然后,通过联合本文的校对方法实现了对蒙古文的非词错误与真词错误的校正。本文利用蒙古文音节的特点建立音节与真词混淆集实现了对蒙古文... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于蒙古文音节分析的文本校对方法研究


蒙古文的书写片段样式Figure2.1WritingfragmentstyleinMongolian蒙古文使用字母来表示文字,每个蒙古文单词都是一个字母序列,由于其是表音文字,每一个音节将代表一个读音,因此音节可以作为传统蒙古文的研究基础

蒙古文,单词


形同音不同字错误占了 29%,格错误 4%。在单音字类型的错误中又包含了多字母错误比如表 2.3:表 2. 3 蒙古文文本错误情况统计表Table 2. 3 Statistics of errors in Mongolian texts型 错误总数 错误 476 错误 666 错误 8374 发现,替换字母所造成的错误占了绝大部分,这也于存在变形的特点,所以同一个名义字符在句首, 2.2,左边的‘ ’(U+1823)等是蒙古文的名义,词中和词尾所表现出来的形态则是名义字符在不

蒙古文,集流


24图 4.1获取蒙古文真词混淆集流程图Figure 4.1 Flow chart of obtaining Mongolian real-word confusion set述方法,本文在蒙古文正字法词典和音节混淆集的基础上建立了蒙本文通过人工添加的方式不断地将一些常见的蒙古文真词错误的易建的真词混淆集库中。是蒙古文真词混淆集的部分示例:

【参考文献】:
期刊论文
[1]蒙古文文本自动校对研究综述[J]. 包乌格德勒,李娟.  电脑知识与技术. 2016(35)
[2]中文“非多字词错误”自动校对方法研究[J]. 刘亮亮,曹存根.  计算机科学. 2016(10)
[3]基于语料库的英语文章语法错误检查及纠正方法[J]. 谭咏梅,王晓辉,杨一枭.  北京邮电大学学报. 2016(04)
[4]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟.  中文信息学报. 2014(06)
[5]汉字种子混淆集的构建方法研究[J]. 施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.  计算机科学. 2014(08)
[6]基于词典和统计相结合的维吾尔语拼写检查方法[J]. 麦合甫热提,艾山·吾买尔,麦热哈巴·艾力,吐尔根·伊布拉音,张健.  中文信息学报. 2014(02)
[7]基于统计翻译框架的蒙古文自动拼写校对方法[J]. 苏传捷,侯宏旭,杨萍,员华瑞.  中文信息学报. 2013(06)
[8]领域问答系统中的文本错误自动发现方法[J]. 刘亮亮,王石,王东升,汪平仄,曹存根.  中文信息学报. 2013(03)
[9]传统蒙古文编码及其应用现状分析[J]. 金良,散旦玛,玉英.  语文学刊. 2012(07)
[10]基于上下文的拉丁维文拼写校对的研究[J]. 何晋一,陈红英,姜文斌,张海波,刘群.  计算机系统应用. 2011(12)

硕士论文
[1]字词级中文文本自动校对的方法研究[D]. 卓利艳.郑州大学 2018
[2]基于词典与HMM相结合的蒙古文最小词素编码到标准编码的转换研究[D]. 许杨.内蒙古大学 2018
[3]蒙古文真词错误的侦测与纠错建议的生成研究[D]. 迎春.内蒙古大学 2017
[4]中文真词错误自动校对方法研究[D]. 顾德之.江苏科技大学 2017
[5]繁体中文拼写检错研究[D]. 王勇.南京邮电大学 2016
[6]基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D]. 王洪伟.内蒙古大学 2015
[7]基于句法功能和搭配知识的句法分析器设计和实现[D]. 吴龙凤.南京农业大学 2015
[8]中文文本自动校对系统[D]. 石敏.江苏科技大学 2015
[9]基于规则的蒙古文自动校对方法研究[D]. 江布勒.内蒙古大学 2014
[10]多种蒙古文编码自动识别方法的研究[D]. 李倩.内蒙古大学 2014



本文编号:3320304

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3320304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6327d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com