基于音节统计语言模型蒙古文词汇分析校正器的设计与实现
本文关键词:基于统计的搜索引擎中文输入纠错技术研究,由笔耕文化传播整理发布。
《内蒙古大学》 2007年
基于音节统计语言模型蒙古文词汇分析校正器的设计与实现
赵军
【摘要】: 随着社会的信息化不断深入发展,电子杂志、报刊、文档等各种电子出版物不断涌现。如何保证这些文本的正确性,已经成为自然语言处理研究人员关注的热点。目前,在蒙古文信息处理研究中,校对领域的工作一直以来是一个空白。长期以来,研究人员采用基于字典的校对方法。该方法在词典信息量小的情况下,其效率还能被用户接受。但随着信息量的不断增大,,校对的效率将会下降。本文的目标是提出一个能够很好解决目前蒙古文校对领域问题的新方法。主要工作如下: 首先,介绍了蒙古文词法和语法方面的相关知识。结合蒙古文的词法特点,从蒙古文单词包含的字符数量、音节数量和音节位置三个角度对蒙古文词汇特性进行了初步分析。 其次,重点研究了在自然语言处理领域常用的计算模型和文本相似度计算领域的相关技术。结合对蒙古文词汇特性的分析和各计算模型的比较,本文提出了基于音节的2-gram蒙古文校对模型;同时从校对模型设计、校对模型学习算法设计和校对算法设计三个方面进行详细论述。另外,结合蒙古文的实际特点,论文提出了基于有向图的文本错误分析方法,并对各类型错误进行了分析。
【关键词】:
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库 前10条
1 温晋根;实用型世界语文本校对程序[J];电脑开发与应用;1997年04期
2 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
3 郝莉;敖登巴拉;巩政;图雅;;基于贝叶斯算法的蒙古文文本自动校对研究[J];内蒙古大学学报(自然科学版);2010年04期
4 戴文华,焦翠珍,徐斌;基于统计的自然语言处理模型[J];咸宁学院学报;2005年03期
5 张强;陶宏才;;基于HTK的语音识别语言模型设计及性能分析[J];成都信息工程学院学报;2009年02期
6 赵岩;王晓龙;徐志明;刘秉权;;利用词性信息改进Katz平滑算法[J];哈尔滨工业大学学报;2007年09期
7 李学明;唐相桢;;基于3-gram模型和数据挖掘技术的元数据预取[J];重庆大学学报;2008年06期
8 林晖;林劼;;基于Markov模型的改进型疑错窗口算法[J];实验科学与技术;2008年04期
9 陈智鹏;吕玉琴;刘华生;刘刚;屠辉;;基于N-gram统计模型的搜索引擎中文纠错[J];中国电子科学研究院学报;2009年03期
10 胡俊锋;陈浩;陈蓉;谭斌;于中华;;基于感知器的生物医学命名实体边界识别算法[J];计算机应用;2007年12期
中国重要会议论文全文数据库 前4条
1 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
2 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 才让加;头旦才让;周毛先;;藏语语料库加工方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前4条
1 《计算机世界》评测实验室 郭见洌;[N];计算机世界;2000年
2 本报实习生 谭征;[N];市场报;2002年
3 晓文;[N];通信产业报;2000年
4 记者 李光明 实习生 范天娇;[N];法制日报;2009年
中国硕士学位论文全文数据库 前10条
1 赵军;基于音节统计语言模型蒙古文词汇分析校正器的设计与实现[D];内蒙古大学;2007年
2 郇政永;基于OCR的中文文本校对研究[D];北方工业大学;2011年
3 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
4 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
5 杨永火;组合向量空间模型和语言模型的信息检索系统[D];天津大学;2006年
6 唐相桢;基于数据挖掘的文件元数据预取研究与实现[D];重庆大学;2008年
7 伊力亚尔·加尔木哈买提;哈萨克文语料库词汇校对研究[D];新疆大学;2008年
8 戚婕;基于遗传算法的金融高性能计算[D];中南大学;2011年
9 孙善禄;搜索引擎纠错算法研究与纠错Bad Case挖掘[D];大连理工大学;2013年
10 陈智鹏;基于统计的搜索引擎中文输入纠错技术研究[D];北京邮电大学;2010年
本文关键词:基于统计的搜索引擎中文输入纠错技术研究,由笔耕文化传播整理发布。
本文编号:129181
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/129181.html