蒙古文脱机手写识别研究
发布时间:2021-02-08 12:27
手写识别一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字识别等领域。然而,蒙古文脱机手写识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重等特点,这些都给蒙古文脱机手写识别带来了巨大挑战。因此,本文将传统蒙古文作为对象,开展脱机手写识别研究。针对蒙古文缺乏手写数据集的现状,本文收集并整理了蒙古文词典数据,选取了手写词汇集,组织大批人员抄写了样本,通过人工核对、校正和预处理,形成了脱机手写蒙古文单词数据集,并在此基础上开展了蒙古文脱机手写识别研究,具体研究内容包括:(1)针对蒙古文百万级词汇量的特点,本文根据蒙古文构词、编码、语法等知识,选取了“十二字头”、“变形显现字符”和“字素码”等三种单词分割单元,通过对比实验,选定“字素码”为蒙古文单词的分割单位,并提出了基于字素建模的蒙古文大词汇量手写识别方法。该方法以蒙古文字素作为建模单元,通过字素的线性串联实现单词建模,以解决大词汇量识别问题。(2)针对蒙古文手写单词具有序列数据特点以...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
基于HMM的手写识Figure1.1Schematicoverviewofatypicalarchitect获取文本区行文本提取
内蒙古大学博士学位论文5一化方法。图像的序列化一般采用滑动窗口技术,即用一个尺寸较小的窗口,沿着文字书写方向移动,窗口内的图像作为一帧数据。通过该过程把二维的手写图像变成一维的序列数据。窗口滑动时留很小的重叠部分,如图1.2所示。滑动窗口内的数据一般不直接作为HMM的观察序列,而要经过特征提取后才能作为HMM模型的观察数据。在脱机手写识别中,特征主要包括Gabor特征[53]、方向线素特征(DirectionalElementFeature,DEF)[54]、统计特征[55]、梯度特征[56]等。图1.2滑动窗口序列化例子Figure1.2Anexampleofslidingwindowserialization基于HMM的手写识别系统可以分成两个独立的模型,一个是描述手写字符特征数据的HMM模型,可以叫做书写模型,另一个是描述字符或单词之间长依赖关系的语言模型。对于拼音文字,书写模型一般选择字符为建模对象,然后根据词典信息通过书写模型的拼接构造单词或句子的模型。在这复杂模型中,语言模型提供单词间长依赖关系的转移概率,以提高识别准确率。HMM是生成模型,即认为被观察的数据由某个源产生。手写过程中,字符或单词序列对应的手写数据看作被HMM模型生成。则手写识别的目的是寻找某个序列使后验概率(|)最大化,如公式(1.1)所示。=arg(|)=arg()×(|)()≈arg()×(|)(1.1)通过贝叶斯公式重写后,不难发现()可以用语言模型描述,(|)可以用书写模型描述。基于马尔可夫模型的优点是在分类之前不需要对数据进行切分,即观察数据与HMM状态或HMM模型之间的对应关系无需提前人工准备。HMM可以把数据对齐和数据分类一同完成。HMM模型的两个基本假设为:(1)任一时刻t的某一状态只依赖于其t-1刻的状态,与其它时刻的状态及观测无关;(2)任一时刻t的观测只依赖于该
懊晒盼?Unicode编码标准已经成为了工业和学术界广泛使用的标准。蒙古文编码国际标准制定时,定义了名义字符、变形显现字符、强制合体字等概念[5]。名义字符:每一个蒙古文字母的多个变体中最具代表性的一个形式,仅用于蒙古文编码、存储和交换。变形显现字符:蒙古文每个字母的多个变体,是用于显示、输出的字符。强制合体字:蒙古文的“圆头”辅音和元音字母拼写时由于连写的需要,改变相接的辅音字母和元音字母的原来字形融合成的一个整体字符。蒙古文单词、Unicode编码、名义字符、变形显现字符和强制合体字的示例如图2.1所示。图2.1蒙古文构词方式及编码Figure2.1Mongolianwordformationandcoding蒙古语属于黏着语,采用词干加后缀的构词方法,因此词的变形非常丰富。特别是动词,通过加不同的后缀可以生成几个或几十个不同的动词,例如:“”等都是在词干“”后头增加不同的后缀构成不同语气或时态的动词。蒙古文的后缀又可以细分为构词后缀、构形后缀和结尾后缀。进一步结尾后缀又可以分为格后缀、领属后缀、式动词后缀和副动词后缀、形动词后缀等。这种构词灵活性导致了蒙古文单词量达到了百万级,所以任何蒙古文信息系统中使用的词典很难覆盖所有蒙古文单词,这会导致蒙古文集外词概率变的非常高。书写蒙古文时先从上到下写出文字的主要成份,之后再附加“字点”、“双点”、“字辫”、“字钩”等成份。手写时自由度比较大,这对母语是蒙古语的人群阅读时不会造成太大困难,但对于计算机识别是巨大的挑战。手写蒙古文的特点总结如下:蒙古文高度不统一,同一个字母的各个变形显现字符长度也不尽相同,如图2.2所示。
【参考文献】:
期刊论文
[1]MHW蒙古文脱机手写数据库及其应用[J]. 范道尔吉,高光来,武慧娟. 中文信息学报. 2018(01)
[2]基于字素分割的蒙古文手写识别研究[J]. 范道尔吉,高光来,武彗娟. 中文信息学报. 2017(05)
[3]大数据下的基于深度神经网的相似汉字识别[J]. 杨钊,陶大鹏,张树业,金连文. 通信学报. 2014(09)
[4]基于CNN和随机弹性形变的相似手写汉字识别[J]. 高学,王有旺. 华南理工大学学报(自然科学版). 2014(01)
[5]基于Unicode编码的蒙古文输入法研究[J]. 范道尔吉,白凤山,武慧娟. 中文信息学报. 2010(06)
[6]蒙古文显示在OpenOffice.org办公套件中的实现[J]. 孟凡强,吴健,贾彦民. 中文信息学报. 2007(02)
[7]印刷体蒙古文字识别中蒙古文字特征的选择[J]. 魏宏喜,高光来. 内蒙古大学学报(自然科学版). 2006(06)
[8]蒙古文OpenType字体制作技术[J]. 乌达巴拉,巩政. 内蒙古大学学报(自然科学版). 2006(05)
[9]蒙文TrueType字型字体技术的研究[J]. 巴力登. 新疆大学学报(自然科学版). 2004(04)
[10]印刷体蒙古文字识别技术中切分方法的设计与实现[J]. 李伟,高光来,侯宏旭,李振宏. 内蒙古大学学报(自然科学版). 2003(03)
博士论文
[1]基于深度学习和知识策略的蒙古文古籍识别研究[D]. 苏向东.内蒙古大学 2016
[2]蒙古文古籍图像检索技术研究[D]. 魏宏喜.内蒙古大学 2012
硕士论文
[1]大词汇量脱机手写蒙古文整词识别研究[D]. 刘聪.内蒙古大学 2019
[2]基于深度学习的联机蒙古文手写识别系统研究[D]. 李敏.内蒙古大学 2019
[3]基于注意力神经网络的蒙汉机器翻译系统的研究[D]. 申志鹏.内蒙古大学 2017
[4]蒙古文古籍识别技术的研究[D]. 苏向东.内蒙古大学 2011
[5]蒙古语语音识别系统的研究与优化[D]. 飞龙.内蒙古大学 2009
[6]联机手写蒙古文字识别技术的研究[D]. 白文荣.内蒙古大学 2007
[7]基于UNICODE和OpenType字库的MWord的研究[D]. 斯·劳格劳.内蒙古大学 2006
[8]印刷体蒙古文字识别中关键技术的研究[D]. 魏宏喜.内蒙古大学 2006
[9]联机手写蒙古文字识别技术的研究与实现[D]. 吴伟.内蒙古大学 2005
[10]多字体印刷蒙文字识别技术的研究[D]. 李伟.内蒙古大学 2004
本文编号:3023919
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
基于HMM的手写识Figure1.1Schematicoverviewofatypicalarchitect获取文本区行文本提取
内蒙古大学博士学位论文5一化方法。图像的序列化一般采用滑动窗口技术,即用一个尺寸较小的窗口,沿着文字书写方向移动,窗口内的图像作为一帧数据。通过该过程把二维的手写图像变成一维的序列数据。窗口滑动时留很小的重叠部分,如图1.2所示。滑动窗口内的数据一般不直接作为HMM的观察序列,而要经过特征提取后才能作为HMM模型的观察数据。在脱机手写识别中,特征主要包括Gabor特征[53]、方向线素特征(DirectionalElementFeature,DEF)[54]、统计特征[55]、梯度特征[56]等。图1.2滑动窗口序列化例子Figure1.2Anexampleofslidingwindowserialization基于HMM的手写识别系统可以分成两个独立的模型,一个是描述手写字符特征数据的HMM模型,可以叫做书写模型,另一个是描述字符或单词之间长依赖关系的语言模型。对于拼音文字,书写模型一般选择字符为建模对象,然后根据词典信息通过书写模型的拼接构造单词或句子的模型。在这复杂模型中,语言模型提供单词间长依赖关系的转移概率,以提高识别准确率。HMM是生成模型,即认为被观察的数据由某个源产生。手写过程中,字符或单词序列对应的手写数据看作被HMM模型生成。则手写识别的目的是寻找某个序列使后验概率(|)最大化,如公式(1.1)所示。=arg(|)=arg()×(|)()≈arg()×(|)(1.1)通过贝叶斯公式重写后,不难发现()可以用语言模型描述,(|)可以用书写模型描述。基于马尔可夫模型的优点是在分类之前不需要对数据进行切分,即观察数据与HMM状态或HMM模型之间的对应关系无需提前人工准备。HMM可以把数据对齐和数据分类一同完成。HMM模型的两个基本假设为:(1)任一时刻t的某一状态只依赖于其t-1刻的状态,与其它时刻的状态及观测无关;(2)任一时刻t的观测只依赖于该
懊晒盼?Unicode编码标准已经成为了工业和学术界广泛使用的标准。蒙古文编码国际标准制定时,定义了名义字符、变形显现字符、强制合体字等概念[5]。名义字符:每一个蒙古文字母的多个变体中最具代表性的一个形式,仅用于蒙古文编码、存储和交换。变形显现字符:蒙古文每个字母的多个变体,是用于显示、输出的字符。强制合体字:蒙古文的“圆头”辅音和元音字母拼写时由于连写的需要,改变相接的辅音字母和元音字母的原来字形融合成的一个整体字符。蒙古文单词、Unicode编码、名义字符、变形显现字符和强制合体字的示例如图2.1所示。图2.1蒙古文构词方式及编码Figure2.1Mongolianwordformationandcoding蒙古语属于黏着语,采用词干加后缀的构词方法,因此词的变形非常丰富。特别是动词,通过加不同的后缀可以生成几个或几十个不同的动词,例如:“”等都是在词干“”后头增加不同的后缀构成不同语气或时态的动词。蒙古文的后缀又可以细分为构词后缀、构形后缀和结尾后缀。进一步结尾后缀又可以分为格后缀、领属后缀、式动词后缀和副动词后缀、形动词后缀等。这种构词灵活性导致了蒙古文单词量达到了百万级,所以任何蒙古文信息系统中使用的词典很难覆盖所有蒙古文单词,这会导致蒙古文集外词概率变的非常高。书写蒙古文时先从上到下写出文字的主要成份,之后再附加“字点”、“双点”、“字辫”、“字钩”等成份。手写时自由度比较大,这对母语是蒙古语的人群阅读时不会造成太大困难,但对于计算机识别是巨大的挑战。手写蒙古文的特点总结如下:蒙古文高度不统一,同一个字母的各个变形显现字符长度也不尽相同,如图2.2所示。
【参考文献】:
期刊论文
[1]MHW蒙古文脱机手写数据库及其应用[J]. 范道尔吉,高光来,武慧娟. 中文信息学报. 2018(01)
[2]基于字素分割的蒙古文手写识别研究[J]. 范道尔吉,高光来,武彗娟. 中文信息学报. 2017(05)
[3]大数据下的基于深度神经网的相似汉字识别[J]. 杨钊,陶大鹏,张树业,金连文. 通信学报. 2014(09)
[4]基于CNN和随机弹性形变的相似手写汉字识别[J]. 高学,王有旺. 华南理工大学学报(自然科学版). 2014(01)
[5]基于Unicode编码的蒙古文输入法研究[J]. 范道尔吉,白凤山,武慧娟. 中文信息学报. 2010(06)
[6]蒙古文显示在OpenOffice.org办公套件中的实现[J]. 孟凡强,吴健,贾彦民. 中文信息学报. 2007(02)
[7]印刷体蒙古文字识别中蒙古文字特征的选择[J]. 魏宏喜,高光来. 内蒙古大学学报(自然科学版). 2006(06)
[8]蒙古文OpenType字体制作技术[J]. 乌达巴拉,巩政. 内蒙古大学学报(自然科学版). 2006(05)
[9]蒙文TrueType字型字体技术的研究[J]. 巴力登. 新疆大学学报(自然科学版). 2004(04)
[10]印刷体蒙古文字识别技术中切分方法的设计与实现[J]. 李伟,高光来,侯宏旭,李振宏. 内蒙古大学学报(自然科学版). 2003(03)
博士论文
[1]基于深度学习和知识策略的蒙古文古籍识别研究[D]. 苏向东.内蒙古大学 2016
[2]蒙古文古籍图像检索技术研究[D]. 魏宏喜.内蒙古大学 2012
硕士论文
[1]大词汇量脱机手写蒙古文整词识别研究[D]. 刘聪.内蒙古大学 2019
[2]基于深度学习的联机蒙古文手写识别系统研究[D]. 李敏.内蒙古大学 2019
[3]基于注意力神经网络的蒙汉机器翻译系统的研究[D]. 申志鹏.内蒙古大学 2017
[4]蒙古文古籍识别技术的研究[D]. 苏向东.内蒙古大学 2011
[5]蒙古语语音识别系统的研究与优化[D]. 飞龙.内蒙古大学 2009
[6]联机手写蒙古文字识别技术的研究[D]. 白文荣.内蒙古大学 2007
[7]基于UNICODE和OpenType字库的MWord的研究[D]. 斯·劳格劳.内蒙古大学 2006
[8]印刷体蒙古文字识别中关键技术的研究[D]. 魏宏喜.内蒙古大学 2006
[9]联机手写蒙古文字识别技术的研究与实现[D]. 吴伟.内蒙古大学 2005
[10]多字体印刷蒙文字识别技术的研究[D]. 李伟.内蒙古大学 2004
本文编号:3023919
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3023919.html