2016流行的手写体字_最简单的手写体_基于SVM的脱机手写体汉字识别研究
本文关键词:脱机手写体汉字识别研究,由笔耕文化传播整理发布。
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的意义。由于脱机手写体汉字是一个超多类复杂模式识别问题,以往的研究显示,要想得到较高的识别率,需要集成多种识别方法,但同时也增加了系统开销。支持向量机理论是基于统计学习理论基础上的,有较好的理论框架。它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。脱机手写体汉字识别属于复杂高维模式识别问题,将SVM理论运用于脱机手写体汉字的识别有较大的理论...
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的意义。由于脱机手写体汉字是一个超多类复杂模式识别问题,以往的研究显示,要想得到较高的识别率,需要集成多种识别方法,但同时也增加了系统开销。支持向量机理论是基于统计学习理论基础上的,有较好的理论框架。它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。脱机手写体汉字识别属于复杂高维模式识别问题,将SVM理论运用于脱机手写体汉字的识别有较大的理论意义和实践价值。 论文所涉及到的主要内容如下: (1)概论。阐述了脱机手写体汉字识别研究的目的和意义,并对当前在此研究领域内存在的困难进行了说明。通过汉字识别已往的研究历程和现在的发展现状总结了汉字识别的一般原理与方法。 (2)脱机手写体汉字自动录入接口设计。设计了一个脱机手写体汉字扫描过程自动人机接口模型。利用TWAIN协议(计算机应用程序与光栅图像获取设备标准通信协议),无须人为操作,应用程序将纸质文档的手写汉字信息按照人为设置要求自动录入计算机成规定格式便于后期预处理、特征提取和识别,从而提高了效率。 (3)脱机手写体汉字样本的收集及图像预处理。采用设计专用表格的方式对年龄分布段为18~60岁的不同职业、性别、学历的人的一般手写字体进行样本收集。受人员和经费的限制,收集的汉字类别为GB2312-80一级字库中的前50类汉字,每类汉字收集108个样本。对收集的汉字样本进行灰度化、二值化,倾斜校正,表格标记定位,汉字切分,归一化处理形成样本库。 (4)特征提取。将网格方向特征作为手写体汉字特征。阐述了4种弹性网格构造方法,并对它们在吸收手写体汉字形变能力和算法性能方面作了分析和比较。对3种汉字方向分解法进行阐述和分析,得出3种方法各自存在优点与缺陷,适用于不同的应用环境。经综合分析,本文选取基于点密度均衡的弹性网格构造法与3种汉字方向分解法组成3种手写体汉字特征(骨架特征、边缘特征和笔画特征),其中,本文针对AND分解和OR分解得出的相应骨架特征的各自特点,将骨架特征进行了改进,融合了两者优点,形成新的骨架特征。本文对这3种特征提取算法在时间复杂度和反映汉字笔画准确度方面给出了定性的比较分析。从实验结果可以看出这3种特征都能有效反映出手写体汉字的特征。 (5)基于支持向量机的汉字识别。本文首次将上文所提的骨架特征、边缘特征和笔画特征用于支持向量机分类器,利用支持向量机理论通过对少量汉字样本的学习获得推广性能良好的识别器。该方法在对每个汉字仅用几十个样本学习的情况下就能取得较好的识别效果。 本文研究对象为少量常用汉字,研究目标是探索SVM理论在非特定人低限制手写体汉字脱机识别的有效性。实验选取了国标GB2312-80一级字库中的前50个汉字,每个汉字108个样本,共5400个汉字样本,,采用LibSVM2.86分类器对样本进行训练和识别,实验取得了较好识别结果。
展开
本文关键词:脱机手写体汉字识别研究,由笔耕文化传播整理发布。
本文编号:93312
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/93312.html