当前位置:主页 > 科技论文 > 软件论文 >

面向特定字符集的脱机手写体文字识别算法研究

发布时间:2019-08-30 11:05
【摘要】:保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,对手写体文件的保密检查是检查工具下一步研究的重点。由于手写笔画的无约束性与笔顺的不确定性,脱机手写体识别一直是一个难以解决的问题,而现有的识别技术针对特定字符集(“保”、“守”、“国”、“家”、“秘”、“密”等等)的识别,远远达不到保密检查准确性、高效性的要求。本文致力于研究一种针对特定字符集的脱机手写文字识别方法,包括去除噪声、恢复笔画原有特征及相应的特征识别算法,并完成一个原型系统的开发与测试,实现特定字符的大部分手写字体的脱机识别功能。论文针对手写识别几个关键步骤进行研究,主要工作如下:(1)去噪算法的研究:细化引入噪声的消除和无约束手写笔画的恢复。针对细化操作所引入的噪声问题,文章描述了一种判定交叉点、端点的方法,并以判定结果为依据分别进行了交叉点分离的去重、笔锋错误突出的恢复与笔画断裂的修复。针对无约束手写笔画的恢复工作,文章提出了一种人工神经网络的训练方法,解决了手写文字连笔和笔画省略的问题,降低了由于手写习惯不同所造成的识别困难。(2)特征识别算法的研究:优化特征提取算法并设计了一种特征匹配算法。首先针对手写体极大的随意性提出了一种笔画内部特征恢复方法,将各种内部特征进行提取并大致分类;其次根据这些特征设计了一个三层分类器,避免了识别一个文字就要进行字典查找的大量时间消耗;最后设计了一个笔画特征库并依此提出匹配方法和笔画相似度计算方法,让文字与库内标准模板进行相似度计算,从而识别出手写体文字。(3)原型系统开发与测试:基于以上研究与保密检查工具的要求进行原型系统开发,通过原型系统进行算法测试和验证并对采集的数据进行分析。在特定字符集中抽取的6个文字1530个样本的实验中,三种主流识别软件对于脱机手写体特定字符集的识别率均未超过50%,而此文档识别系统能够始终保持90%以上的平均识别率。对比结果表明,论文提出的独创性设计与相关技术改进有效地提高了特定字符集的识别率。若制作更多的字体模板,那么识别率将还会继续上升。在同等时间和环境下,将此系统作为主要检查工具,最适合于国家保密检查工作。
【图文】:

脱机手写体,文字识别,预处理


识别算法对预处理后的文字进行特征提取,进而依据提取出的各类特征进行分类,之后逡逑与知识库中己有的文字特征进行匹配,最后可以识别出手写体文字。逡逑从流程上看,脱机手写识别大体分为预处理,,文字识别与后处理三个模块,如图2.1逡逑所示,预处理过程可分为二值化、平滑去噪、规范化等几个步骤,文字识别过程又可分逡逑为特征提取、分类、特征匹配等几个步骤,而后处理即为将识别过程中新学到的特征录逡逑入知识库中。逡逑手与体文件逡逑片格式保忭的逡逑文件逦筅机逡逑I逦I逦逦逡逑■邋■■■邋■..A逦 ̄?二值化逡逑预处理逦?|逦|平?喷|逡逑—— ̄ ̄I规范化丨逡逑逦逦邋 ̄?!逦I特征提取|逡逑11知识库I邋」丨后处pk邋-邋识别逦?!分炎逡逑Li逦N邋j邋L逦!逦■{-逦"-十逡逑逦逦 ̄?!逦\mmM\逡逑逦'邋r逦逡逑输出识别结果逡逑图2.1脱机手写体文字识别一般流程逡逑2.1预处理逡逑需要被识别的手写体文字在书写过程中或经过扫描后可能生成各种噪声。噪声即为逡逑扫描出文件中的文字与知识库中标准文字的特征信息不匹配的地方,而产生噪声的原因逡逑9逡逑

手写识别,预处理


的识别工作,首先要进行对扫描图像的预处理,从而将图像的噪声降到最低,以提高识逡逑别速度与识别率。逡逑如图2.2所示,手写识别与印刷体识别的预处理工作大致类似,基本步骤都分为二逡逑值化、去噪、倾斜校正、行切分、列切分、标准化等。逡逑'i逦-逦平逦^逦^逦^逦i逡逑Sl;邋一一邋j邋H邋—邋2邋一逡逑M邋u逦□邋11逡逑图2.2手写识别预处理一般过程逡逑2.1.1二值化逡逑所谓二值,指的是一副图像中只存在黑白两种颜色的图像,并且在图像中没有另外逡逑的灰度变化。这样的图像中的像素点可以用0和1来表示黑和白(或白和黑)。二值化逡逑即为将普通的扫描图像转化为二值图像的过程,通常为预处理的第一步,二值效果也将逡逑对之后的步骤造成很大影响,是整个预处理过程能否得到理想结果的关键。逡逑文献[28]给出了一个灰度化彩色图像的过程,从而可以得到二值化图像。灰度图像逡逑二值化的核心是确定适当的阈值r以划分笔画像素和背景像素%。阈值划分法将整个图逡逑像划分为256个灰度区域,同一灰度像素共属于一个灰度区域,由于一般在一个文字图逡逑像中笔画部分与背景部分灰度差异比较明显,可以依据此特点确定r从而将笔画像素所逡逑代表的灰度区域像素抽取出来。多种寻找阈值r的方法都较为成熟,但需要根据实际情逡逑况进行选择。逡逑(1)全局阈值法逡逑全局阈值法的计算对象为整个文字图像
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.43

【参考文献】

相关期刊论文 前10条

1 任日丽;彭利红;;基于改进的十三点特征提取算法的智能阅卷系统研究[J];电脑知识与技术;2015年09期

2 孔斌;喻民;刘超;李续;;保密检查中图像文件内容识别技术研究[J];保密科学技术;2014年07期

3 温尚清;郝志峰;廖芹;陈炎雄;;基于贝叶斯网络的脱机手写体汉字智能识别[J];计算机辅助工程;2006年03期

4 魏阳;索忠伟;李文容;;数字滤波器在实时滤除心电干扰中的设计与应用[J];微计算机信息;2006年11期

5 李国宏;施鹏飞;;手写体汉字笔画特征点的完整性分析[J];计算机工程;2006年06期

6 焦李成;孙强;;多尺度变换域图像的感知与识别:进展和展望[J];计算机学报;2006年02期

7 高彦宇,杨扬,陈飞;基于融合特征和LS-SVM的脱机手写体汉字识别[J];北京科技大学学报;2005年04期

8 付庆玲,韩力群;基于人工神经网络的手写数字识别[J];北京工商大学学报(自然科学版);2004年03期

9 Paul Graham;;反垃圾信的新策略[J];程序员;2003年10期

10 童学锋,石繁槐;FSVM在有限集脱机手写体汉字识别中的应用[J];计算机工程;2003年13期

相关博士学位论文 前1条

1 娄正良;中文邮政地址识别研究[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前1条

1 戚世贵;基于图像特征点的提取匹配及应用[D];吉林大学;2006年



本文编号:2530696

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2530696.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d41b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com