当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于N-Gram模型的蒙古语文本语种识别算法的研究

发布时间:2017-09-21 09:51

  本文关键词:基于N-Gram模型的蒙古语文本语种识别算法的研究


  更多相关文章: 语种识别 N-Gram模型 平均距离识别算法 蒙古语文本


【摘要】:互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。
【作者单位】: 内蒙古工业大学信息工程学院;
【关键词】语种识别 N-Gram模型 平均距离识别算法 蒙古语文本
【基金】:国家自然科学基金(61363052) 内蒙古自治区自然科学基金(2014MS0608) 内蒙古自治区高等学校科学研究项目(NJZY12052) 内蒙古工业大学重点基金(ZD201118)
【分类号】:TP391.1
【正文快照】: 1研究背景蒙古语是古老的民族语言之一,是内蒙古自治区的通用语言文字。蒙古语语言文字是一种以词为单位竖写的语言,词与词之间用空格分开,采取从上到下,从左到右的书写顺序。蒙古语语言文字有33个字母,其中7个元音、17个基本辅音和9个借词辅音。字母可以放置在词首、词中和词

【相似文献】

中国期刊全文数据库 前9条

1 S·苏雅拉图;蒙古语动词计算机生成研究[J];计算机学报;2002年11期

2 唐恩博;熊晓晓;哈斯;;蒙古语词汇语义网查询平台设计[J];电子技术与软件工程;2013年19期

3 王斯日古楞;;英语到蒙古语转换生成规则的研究[J];内蒙古师范大学学报(自然科学汉文版);2005年04期

4 雪艳;;关于用XML语言组织蒙古语语料库的设想[J];内蒙古大学学报(人文社会科学版);2006年01期

5 赵斯琴,高光来,何敏;蒙古语语料库的研究与建设[J];内蒙古大学学报(自然科学版);2003年05期

6 伊·达瓦;张玉洁;上园一知;大川茂树;章森;井佐原均;白井克彦;;蒙古语语言-文字的自动化处理[J];中文信息学报;2006年04期

7 包艳花;;关于进一步提高蒙古语语料库质量的思考[J];呼伦贝尔学院学报;2009年02期

8 侯宏旭;刘群;那顺乌日图;;基于实例的汉蒙机器翻译[J];中文信息学报;2007年04期

9 ;[J];;年期

中国重要会议论文全文数据库 前5条

1 呼和;陶建华;;蒙古语和蒙古语的合成[A];第九届全国人机语音通讯学术会议论文集[C];2007年

2 达胡白乙拉;萨仁图雅;;蒙古语助动词标注与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 华沙宝;巴达玛敖德斯尔;;蒙古语语料库建设现状分析和完善策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 德·萨日娜;;蒙古语属格短语的类型分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 华沙宝;;蒙古语作者专门语料库建设及新一代词典编纂进展[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

中国硕士学位论文全文数据库 前4条

1 李慧;蒙古语语义知识词典的研究与实现[D];内蒙古大学;2012年

2 陈红波;基于蒙古语课程领域语义Web的推理与检索方法的研究[D];内蒙古工业大学;2014年

3 樊川;基于蒙古语的自然灾害本体的研究[D];内蒙古工业大学;2014年

4 熊晓晓;基于蒙古语名词语义网的同形词歧义消除算法的研究[D];内蒙古师范大学;2015年



本文编号:893812

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/893812.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e993***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com