基于遗传算法的字符识别特征提取技术研究
发布时间:2021-08-07 13:27
人类利用字符来进行信息交流,随着信息化社会的不断发展。社会对于手写体字符的识别、运用的需求十分宽广。将纸质资料转化为电子信息对于高效、便捷的信息社会起着至关重要的作用。而对于脱机手写体字符来说,汉字手写体字符风格随意,不受拘束且笔画结构复杂。因此,汉字手写字符对于识别模式来说是一项具有挑战性的课题。字符识别的难点在于如何提取到最具区分度的特征,传统的统计特征提取基于统计学能够取得较好效果,但其前提是必须训练集足够大,训练次数足够多才会得到想要的效果。而手写字符,不变的还是笔画结构,虽然风格迥异,但笔画结构是唯一的。因此笔画结构特征对于字符识别是更有效、精度更高的。本文要解决的是特征提取结果不稳定的问题,因此在笔画结构特征的基础上进行改进。将初始字符图像化后的曲线结果进行曲直化转变,利用DDA算法进行转变来解决曲线图像多拐点对于特征提取的影响。然后利用最小偏差法,计算输入字符和样本集合在空间坐标系中的误差值,利用角度和直线的偏差值进行字符匹配,偏差值最小匹配度最高。最后引入遗传算法,将角度、线段的特征集合进行迭代,在代代交叉进化的过程中最终得出最优特征,提高识别精度。为保证实验效果,本文...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1脱机字符手写字体识?1别流程图??Fig.?2.1?Flow?chart?of?offline?character?handwritten?font?recognition??
?;??基于遗传算法的字符i:只别特征提取技术研究???3.2笔画结构特征提取算法??3.2.1笔画结构特征介绍??在长久以来的字符识别过程中,如何在庞杂的汉字数据库中完成高效准确的字符识??别一直是科研人员的研究热点,因而出现许多字符特征提取算法。主要可以分为结构特??征提取算法和统计特征提取算法,而统计特征提取算法主要有网格特征、投影特征等等??方式。统计特征运算简单,且具有很好的鲁棒性,能够很好的提升字符识别的效果。但??是脱机字符手写体的风格迥异,且不同手写体密度、紧凑度完全不同,因此出现对于上??—个可识别,下一个相同字符就无法识别。事实上,?对于脱机汉字手写体的别过程运??用最多的换上笔画结构特征的提取,因为汉字往往都是由简单的偏旁首组成[37],再由??横、撇、竖、捺组成,如此清晰简单的结构相比起统计特征更加简单直接。虽然每个人??的写作风格,写作类型不同。但是每个字符的大体框架是一定的,都是基于标准体演变??而来,因此采用笔画结构特征具有很好的区分度和识别准则。其提取流程图如图3.1所??示:??开始??I??输入预处理后图??ft??提取笔画分支点??端点??i??提取生标系角度??值??t??建施正的脑??矩阵??y??利用坐标系构造??线,闰距商特征??T??利用特征进行对??比识别??親??图3.1笔画结构特征流程图??Fig.?3.1?Flow?chart?of?stroke?structure?characteristics??-20?-??
?基于遗传算法的字符识别特征提取技术研究???3.2.2笔画结构特征提取过程??笔画结构的特征是由笔画端点二维坐标,以及各笔画间夹角构成的特征向量集合来??构造出笔画结构特征集合,再利用欧氏距离投影寻找偏差最小的笔画结构来进行匹配。??为了得到笔画特征,首先必须将笔画进行细化,将字符结构达到单像素线。此后,??根据单像素线找到端点和分支点,在每个端点之间寻找到拐点[38]。然后必须再次取得每??—条笔画结构的角度值。之后将角度值和第一步中找到的点的位置进行组合,将其放入??关系矩阵。此时便可以把获取到的线条和角度的组合进行特征匹配。??(1)笔画端点与分支点的获取??每一个输入图像都是由无数个像素点构成的,在进行二值化之后,所有的像素点都??分为了黑色和白色,那么此时将中心像素点定义为X0,那么把Xi(i=1...8)称之为像素点??的临域,如图3.2所示:??S???.???t??X4?X3?X2??1??X5?X〇?Xi??X6?X7?Xa??图3.2中心点及其临域??Fig.?3.2?Center?point?and?its?adjacent?area??因为中心像素的值是恒为i的,那么假如临域中存在的值设为i,不存在的为〇,??那么就可以得到中心像素点的衡量公式,如公式3.1所示:??1?8??point(x)=^Y4(xrxi.l)2??:?1=1?(3.1)??那么假如P〇int(x)<2时,临域只存在一个或者没有值,那么此时的点为端点或者孤??立点。假如P〇int(x)>2的时候,临域存在多个值,此时便为分支点。??(2)拐点的获取??-21?-??
【参考文献】:
期刊论文
[1]遗传算法确定特征权重值的图像分类[J]. 唐彩红. 现代电子技术. 2020(03)
[2]基于Faster R-CNN的卫星图像污水处理厂识别[J]. 王莉莉,张晓. 计算机应用. 2019(S2)
[3]基于改进局部二值模式和梯度特征的计算机生成图像鉴别算法[J]. 袁哲,孙延君,陈亮. 吉林大学学报(理学版). 2019(06)
[4]基于遗传算法的图像分割处理技术研究[J]. 安霆. 电子技术应用. 2019(10)
[5]基于HOG特征提取和模糊支持向量机的西夏文字识别[J]. 刘兴长,孟昱煜. 西北师范大学学报(自然科学版). 2019(05)
[6]基于主曲线的书法字动态重现算法[J]. 杨晨旭,张红云,苗夺谦. 模式识别与人工智能. 2019(09)
[7]结合小波自适应阈值与双边滤波的图像降噪[J]. 尤波,张宸枫. 计算机工程与设计. 2019(08)
[8]基于卷积神经网络的双行车牌分割算法[J]. 赵汉理,刘俊如,姜磊,沈建冰,胡明晓. 计算机辅助设计与图形学学报. 2019(08)
[9]基于遗传算法的漫画艺术设计研究与实现[J]. 任玉洁,吴维. 现代电子技术. 2019(15)
[10]一种去除椒盐噪声的自适应模糊中值滤波算法[J]. 万丰丰,周国民,周晓. 浙江大学学报(理学版). 2019(04)
硕士论文
[1]基于统计特征与桥梁方法的小目标检测算法研究[D]. 韩志华.中国科学院大学(中国科学院长春光学精密机械与物理研究所) 2019
[2]基于DDA算法的计算机数控系统的设计与实现[D]. 李兵.南京大学 2019
[3]基于汉字笔画和结构信息的个性化字库构造与优化[D]. 宋春晓.南京师范大学 2019
本文编号:3327878
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1脱机字符手写字体识?1别流程图??Fig.?2.1?Flow?chart?of?offline?character?handwritten?font?recognition??
?;??基于遗传算法的字符i:只别特征提取技术研究???3.2笔画结构特征提取算法??3.2.1笔画结构特征介绍??在长久以来的字符识别过程中,如何在庞杂的汉字数据库中完成高效准确的字符识??别一直是科研人员的研究热点,因而出现许多字符特征提取算法。主要可以分为结构特??征提取算法和统计特征提取算法,而统计特征提取算法主要有网格特征、投影特征等等??方式。统计特征运算简单,且具有很好的鲁棒性,能够很好的提升字符识别的效果。但??是脱机字符手写体的风格迥异,且不同手写体密度、紧凑度完全不同,因此出现对于上??—个可识别,下一个相同字符就无法识别。事实上,?对于脱机汉字手写体的别过程运??用最多的换上笔画结构特征的提取,因为汉字往往都是由简单的偏旁首组成[37],再由??横、撇、竖、捺组成,如此清晰简单的结构相比起统计特征更加简单直接。虽然每个人??的写作风格,写作类型不同。但是每个字符的大体框架是一定的,都是基于标准体演变??而来,因此采用笔画结构特征具有很好的区分度和识别准则。其提取流程图如图3.1所??示:??开始??I??输入预处理后图??ft??提取笔画分支点??端点??i??提取生标系角度??值??t??建施正的脑??矩阵??y??利用坐标系构造??线,闰距商特征??T??利用特征进行对??比识别??親??图3.1笔画结构特征流程图??Fig.?3.1?Flow?chart?of?stroke?structure?characteristics??-20?-??
?基于遗传算法的字符识别特征提取技术研究???3.2.2笔画结构特征提取过程??笔画结构的特征是由笔画端点二维坐标,以及各笔画间夹角构成的特征向量集合来??构造出笔画结构特征集合,再利用欧氏距离投影寻找偏差最小的笔画结构来进行匹配。??为了得到笔画特征,首先必须将笔画进行细化,将字符结构达到单像素线。此后,??根据单像素线找到端点和分支点,在每个端点之间寻找到拐点[38]。然后必须再次取得每??—条笔画结构的角度值。之后将角度值和第一步中找到的点的位置进行组合,将其放入??关系矩阵。此时便可以把获取到的线条和角度的组合进行特征匹配。??(1)笔画端点与分支点的获取??每一个输入图像都是由无数个像素点构成的,在进行二值化之后,所有的像素点都??分为了黑色和白色,那么此时将中心像素点定义为X0,那么把Xi(i=1...8)称之为像素点??的临域,如图3.2所示:??S???.???t??X4?X3?X2??1??X5?X〇?Xi??X6?X7?Xa??图3.2中心点及其临域??Fig.?3.2?Center?point?and?its?adjacent?area??因为中心像素的值是恒为i的,那么假如临域中存在的值设为i,不存在的为〇,??那么就可以得到中心像素点的衡量公式,如公式3.1所示:??1?8??point(x)=^Y4(xrxi.l)2??:?1=1?(3.1)??那么假如P〇int(x)<2时,临域只存在一个或者没有值,那么此时的点为端点或者孤??立点。假如P〇int(x)>2的时候,临域存在多个值,此时便为分支点。??(2)拐点的获取??-21?-??
【参考文献】:
期刊论文
[1]遗传算法确定特征权重值的图像分类[J]. 唐彩红. 现代电子技术. 2020(03)
[2]基于Faster R-CNN的卫星图像污水处理厂识别[J]. 王莉莉,张晓. 计算机应用. 2019(S2)
[3]基于改进局部二值模式和梯度特征的计算机生成图像鉴别算法[J]. 袁哲,孙延君,陈亮. 吉林大学学报(理学版). 2019(06)
[4]基于遗传算法的图像分割处理技术研究[J]. 安霆. 电子技术应用. 2019(10)
[5]基于HOG特征提取和模糊支持向量机的西夏文字识别[J]. 刘兴长,孟昱煜. 西北师范大学学报(自然科学版). 2019(05)
[6]基于主曲线的书法字动态重现算法[J]. 杨晨旭,张红云,苗夺谦. 模式识别与人工智能. 2019(09)
[7]结合小波自适应阈值与双边滤波的图像降噪[J]. 尤波,张宸枫. 计算机工程与设计. 2019(08)
[8]基于卷积神经网络的双行车牌分割算法[J]. 赵汉理,刘俊如,姜磊,沈建冰,胡明晓. 计算机辅助设计与图形学学报. 2019(08)
[9]基于遗传算法的漫画艺术设计研究与实现[J]. 任玉洁,吴维. 现代电子技术. 2019(15)
[10]一种去除椒盐噪声的自适应模糊中值滤波算法[J]. 万丰丰,周国民,周晓. 浙江大学学报(理学版). 2019(04)
硕士论文
[1]基于统计特征与桥梁方法的小目标检测算法研究[D]. 韩志华.中国科学院大学(中国科学院长春光学精密机械与物理研究所) 2019
[2]基于DDA算法的计算机数控系统的设计与实现[D]. 李兵.南京大学 2019
[3]基于汉字笔画和结构信息的个性化字库构造与优化[D]. 宋春晓.南京师范大学 2019
本文编号:3327878
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3327878.html