当前位置:主页 > 科技论文 > 自动化论文 >

基于字素分割的蒙古文手写识别研究

发布时间:2018-01-26 18:49

  本文关键词: 蒙古文 字素 HMM 手写识别 出处:《中文信息学报》2017年05期  论文类型:期刊论文


【摘要】:隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。
[Abstract]:Hmm (Hidden Markov Model) has a strong ability to model sequence data and has been widely used in speech recognition and handwritten recognition. HMM is used to study Mongolian handwritten recognition. The first problem to be solved is the serialization of handwritten characters. Mongolian characters are composed of several morphemes in series from top to bottom. The selection of morpheme sets and word morpheme segmentation is the basis of handwritten recognition. It is also the key factor that affects the recognition effect. According to the Mongolian syllable and coding knowledge, this paper determines the Mongolian alphabet set, including 1 171 letters. HMM sorting and screening methods were used to obtain the set of long word elements, which included 378characters. The long words were decomposed manually. In order to verify the effect of long and short morpheme in handwriting recognition, we obtain 50 short morphemes. Finally, we use two-layer mapping to give the algorithm of morpheme sequence. In the environment of HTK(hidden Markov model toolkit, we realized the handwriting recognition system by using a small font library. The experimental results show that the short morpheme has better performance than the long word primer. The algorithm of the morpheme set and the morpheme sequence provided in this paper lays a foundation for the further study of Mongolian handwriting recognition based on HMM.
【作者单位】: 内蒙古大学计算机学院;内蒙古大学电子信息工程学院;
【基金】:内蒙古自治区自然科学基金(2016MS0603)
【分类号】:TP18;TP391.4
【正文快照】: 1引言各种语言的手写体识别是人工智能领域最具有挑战性的研究课题之一,主要包括脱机手写体识别和联机手写体识别。国外在文字识别领域较早地开展了此项工作,由于西文(如英文、法文)大多是拼音文字,字母数量少且书写规整,其印刷体和手写体识别产品早已问世。在国内许多大专院

【相似文献】

相关期刊论文 前10条

1 红梅,敖其尔,白云莉;托忒蒙古文读音输入法的设计与实现[J];内蒙古师范大学学报(自然科学汉文版);2004年02期

2 嘎日迪,赵小兵,马红旭,赛音,白小玲;蒙古文自动处理系统研究[J];中文信息学报;1999年04期

3 菊花;金良;;使用程序自动分析蒙古文词的研究[J];内蒙古师范大学学报(自然科学汉文版);2014年02期

4 S·苏雅拉图;蒙古文整词计算机生成理论研究[J];中文信息学报;2001年04期

5 红梅;基于Windows 2000/XP平台蒙古文输入法的设计技术[J];内蒙古师范大学学报(自然科学汉文版);2005年01期

6 巩政;郝莉;杨旭华;;非标准蒙古文字符编码转换为国际编码的一种方法[J];内蒙古大学学报(自然科学版);2008年02期

7 巩政;关高娃;;蒙古文停用词和英文停用词比较研究[J];中文信息学报;2011年04期

8 孟和吉雅;山丹;;蒙古文编码向拉丁转写转换和分音节算法实现[J];中文信息学报;2011年04期

9 高红霞;马小蕾;;西里尔蒙古文网页向传统蒙古文自动转换系统的文字转换研究[J];内蒙古民族大学学报;2012年05期

10 王震;刘汇丹;吴健;;新标准体系下蒙古文变形显现模型的设计与实现[J];中文信息学报;2013年01期

相关会议论文 前10条

1 包艳花;图格木勒;;多字体印刷蒙古文识别后处理研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

2 吉仁尼格;;蒙古文同形词的统计法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

3 呼斯勒;六月;斯日古楞;;浅谈蒙古文通用编辑器几点基本规范[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 孟和吉雅;白音门德;敖其尔;田会利;;蒙古文语音合成技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

7 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

8 林·娜仁图雅;;关于蒙古文非编软件字幕系统的几个问题[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

9 嘎日迪;赵小兵;;内蒙古蒙古语文信息化的回顾与问题剖析[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

10 包敏娜;华沙宝;;蒙古文扫描识别系统自动校正算法及实验[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

相关重要报纸文章 前7条

1 吴萨日娜;市蒙古文教学软件开发应用及资源库建设荣获鄂尔多斯科学技术进步三等奖[N];鄂尔多斯日报;2009年

2 江苏 MACHO;识别手写识别[N];电脑报;2001年

3 李爽;手写识别 外文不再是难题[N];国际商报;2006年

4 闻泽;内蒙古蒙古文信息处理软件研发成功[N];中国电子报;2008年

5 卢旭成;汉王手写识别技术可识别30余国语言[N];中国计算机报;2007年

6 安徽 屠志成;Office XP手写识别功能全攻略[N];中国电脑教育报;2001年

7 本报记者 洪奇;手写笔:21世纪的主流输入技术[N];计算机世界;2001年

相关博士学位论文 前4条

1 苏向东;基于深度学习和知识策略的蒙古文古籍识别研究[D];内蒙古大学;2016年

2 巴图额尔敦;文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究[D];内蒙古大学;2017年

3 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年

4 高岩;基于大规模无约束数据的书写者自适应的中文手写识别系统研究[D];华南理工大学;2013年

相关硕士学位论文 前10条

1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年

2 刘璐;面向蒙古文增量g┱沟男畔⒓焖骷际跹芯縖D];内蒙古大学;2015年

3 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年

4 王洪伟;基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D];内蒙古大学;2015年

5 张畔;蒙古文搜索引擎基本方法的实现[D];内蒙古大学;2015年

6 王亚君;基于Linux IBUS的传统蒙古文输入法的研究与实现[D];内蒙古师范大学;2015年

7 才晶晶;基于CRF的蒙古文人名自动识别[D];内蒙古大学;2016年

8 邢朝龙;分布式蒙古文搜索引擎系统的研究与实现[D];内蒙古大学;2016年

9 蒋玉鹏;基于LDA的西里尔蒙古文主题模型研究[D];内蒙古大学;2016年

10 莫日根;基于规则的传统蒙古文句法分析研究[D];内蒙古大学;2016年



本文编号:1466329

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1466329.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6fff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com