当前位置:主页 > 文艺论文 > 语言艺术论文 >

蒙古文真词错误的侦测与纠错建议的生成研究

发布时间:2018-08-12 18:04
【摘要】:本文针对蒙古文文本字词级错误,借鉴其他语言成功的校对系统设计实现了具有真词错误查错与纠错建议生成功能的文本校对系统。在实现该系统的过程中,我们充分利用内蒙古大学蒙古学学院创建的1000万词级"现代蒙古语语料库"。首先,从语料库中提取词语同现频率。其次,在词语同现矩阵的基础上研制了真词错误查错模型。本文主要从以下几个方面进行研究并做了实验。(1)本文实现的蒙古文真词错误校对系统主要有查错和纠错两个模块组成,由于纠错是在查错的基础上进行的下一步操作,因此蒙古文真词错误的查错研究更为重要。首先,我们先利用统计的方法从1000万词级语料库中提取了词语同现频率。然后统计得到的有效词频共1,845,983条。(2)为了对可能出错的词语提供纠错建议,在借鉴人们以往的研究成果的基础上,建立了易混淆词词典,也就是纠错知识库。(3)在词语同现矩阵的基础上,利用词的二元接续关系设计实现了蒙古文真词错误查错算法。并为已查到的真词错误提供纠错建议,在易混淆词词典的基础上设计实现了一种纠错建议生成的算法。(4)在设计实现该系统的基础上,总结出实验全部过程中所遇到的问题及相应的解决方法。再对最后的实验结果进行分析和评价。
[Abstract]:Aiming at word-level errors in Mongolian text, this paper designs and implements a text proofreading system with the functions of error checking and error correction advice generation in other languages. In the process of realizing this system, we make full use of the "Modern Mongolian Corpus" of 10 million words created by the College of Mongolian Studies of Inner Mongolia University. First, the cooccurrence frequency is extracted from the corpus. Secondly, on the basis of word cooccurrence matrix, the model of true word error detection is developed. This paper mainly carries on the research from the following several aspects and has made the experiment. (1) the Mongolian true word error proofreading system realized in this paper mainly has two modules: check the error and correct the error, because the error correction is the next operation on the basis of the error checking. Therefore, it is more important to investigate the errors of Mongolian true words. Firstly, the cooccurrence frequency of words is extracted from 10 million word-level corpus by statistical method. Then, the effective word frequency is 1845983. (2) in order to provide error correction advice for words that may go wrong, a dictionary of confusing words is established on the basis of people's previous research results. That is the error correction knowledge base. (3) on the basis of the cooccurrence matrix of words, the error detection algorithm of Mongolian true words is designed by using the binary continuity of words. An algorithm of error correction is designed and implemented on the basis of confusing word dictionary. (4) based on the design and implementation of the system. The problems encountered in the whole process of experiment and the corresponding solutions are summarized. Then the final experimental results are analyzed and evaluated.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:H212

【相似文献】

相关期刊论文 前10条

1 孙彦;;大型工具书《中国蒙古文古籍总目》正式出版[J];文献;2000年03期

2 华沙宝;蒙古文网络信息技术处理的对策[J];民族语文;2002年06期

3 白云莉;;蒙古文整词输入法的设计与实现[J];内蒙古农业大学学报(自然科学版);2008年03期

4 哈森其木格;;《蒙古文论发展概论》评析[J];内蒙古民族大学学报(社会科学版);2011年03期

5 乌日娜;;清代蒙古文历史文献及其整理研究概况[J];兰台世界;2011年19期

6 包力高;;蒙古文[J];民族语文;1980年02期

7 黄时鉴;;罗依果著《孝经的古蒙古文译本》简介[J];蒙古学资料与情报;1984年02期

8 斯钦朝克图;;蒙古文信息处理已进入标准化[J];民族语文;1986年05期

9 吴肃民;关照宏;;蒙古文古籍种种[J];中国民族;1987年05期

10 昂如布;包力高;;关于改进蒙古文的探讨[J];蒙古学资料与情报;1987年01期

相关会议论文 前10条

1 包艳花;图格木勒;;多字体印刷蒙古文识别后处理研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

2 吉仁尼格;;蒙古文同形词的统计法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

3 呼斯勒;六月;斯日古楞;;浅谈蒙古文通用编辑器几点基本规范[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 道布;;回鹘式蒙古文[A];中国民族古文字[C];1982年

5 道布;;回鹘式蒙古文研究概况[A];中国民族古文字研究[C];1980年

6 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 孟和吉雅;白音门德;敖其尔;田会利;;蒙古文语音合成技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

8 孟和吉雅;敖其尔;巩政;;蒙古文网页制作技术分析[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

9 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

10 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

相关重要报纸文章 前10条

1 记者 吉儒木图;手机可以使用蒙古文了[N];内蒙古日报(汉);2007年

2 记者 解太荣;《蒙古秘史》回鹘体蒙古文复原项目完成[N];锡林郭勒日报;2009年

3 孟克;如何打破蒙古文图书产销两难的困境[N];中国民族报;2010年

4 记者 阿斯钢;蒙古国总统签命令推广回鹘式蒙古文[N];新华每日电讯;2010年

5 记者 苏布达;全盟首届蒙古文图书节落幕[N];锡林郭勒日报(汉);2012年

6 陈岗龙 (蒙古族);蒙古文文学翻译的两个问题[N];文艺报;2013年

7 金坛;蒙古文:描绘大自然的千姿百态[N];中国民族报;2014年

8 阿勒得尔图;沙日布却玛:用回鹘体蒙古文还原《蒙古秘史》[N];中国民族报;2006年

9 记者 张文强;蒙古文图书农牧民阅读大接力活动启动[N];内蒙古日报(汉);2008年

10 徐恒泰;要全力抓好蒙古文教学资源建设[N];鄂尔多斯日报;2008年

相关博士学位论文 前9条

1 苏向东;基于深度学习和知识策略的蒙古文古籍识别研究[D];内蒙古大学;2016年

2 巴图额尔敦;文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究[D];内蒙古大学;2017年

3 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年

4 达古拉;《清内秘书院蒙古文档案汇编》语言研究[D];内蒙古大学;2012年

5 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年

6 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年

7 莎日娜;乌兰巴托版蒙古文译本《今古奇观》研究[D];中国社会科学院研究生院;2010年

8 王桂荣;蒙古文字结构研究[D];内蒙古大学;2011年

9 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年

相关硕士学位论文 前10条

1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年

2 常红梅;衮布扎布语言论著中的蒙古文阿里嘎礼研究[D];内蒙古大学;2013年

3 刘璐;面向蒙古文增量g┱沟男畔⒓焖骷际跹芯縖D];内蒙古大学;2015年

4 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年

5 王洪伟;基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D];内蒙古大学;2015年

6 张畔;蒙古文搜索引擎基本方法的实现[D];内蒙古大学;2015年

7 宋莉;蒙古文字造形元数据的分类编号探讨[D];内蒙古农业大学;2015年

8 青玉;指导小学生蒙古文正字法教学探析[D];内蒙古师范大学;2015年

9 达拉夫;文献学视角下的蒙古文古籍研究[D];内蒙古大学;2015年

10 王亚君;基于Linux IBUS的传统蒙古文输入法的研究与实现[D];内蒙古师范大学;2015年



本文编号:2179868

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2179868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户586a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com