基于CNN的银行卡数字识别方法
发布时间:2021-03-20 14:35
在拍摄银行卡时,由于受拍摄角度的不确定性、光照条件的复杂性及卡背景的多样性等众多因素的干扰,使得自然拍摄场景的银行卡数字识别算法存在较大挑战。为此,提出一种基于卷积神经网络(CNN)的银行卡数字识别框架。首先,通过投影矫正、边缘检测和形态学等一系列图像处理算法获取目标数字区域;其次,通过增强的数据集训练一个CNN,使用该网络通过滑窗识别获取上述目标数字区域,输出初始银行卡号序列,生成为一个数字曲线图;最后,提出了滑窗优化算法,该平滑算法输入上述初始的银行卡号曲线图,对其进行优化,继而分割出单个数字并输出最终结果。实验结果表明算法显著提高了银行卡数字识别和分割的准确率,同时针对较复杂的银行卡图像仍然具有较好的鲁棒性。
【文章来源】:图学学报. 2020,41(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
银行卡数字识别方法框架
第1期李尚林,等:基于CNN的银行卡数字识别方法83CNN的具体模型结构。(3)数字识别。使用CNN滑窗算法分割单个数字,以及如何使用平滑优化算法获得更加准确的数字序列。图1银行卡数字识别方法框架1.1数字区域提取当前市面上绝大多数银行卡均符合国际ISO/IEC7810中的ID-1标准,尺寸为85.60mm×53.98mm。移动设备的拍照识别程序通常都会利用该长宽比引导用户拍摄银行卡,因此,本文假设获取到的银行卡影像是完整的。1.1.1倾斜校正由于拍摄位置的自由性,使用移动设备获取的银行卡图像通常存在一定的角度倾斜,角度较大的图像会严重影响后续的识别。考虑到算法的鲁棒性,需要分2种情况考虑。对于银行卡边缘完整的情况,可以考虑先获取银行卡边缘,再对图像进行投影校正。具体方法如下:(1)使用Canny算子来获取边缘;(2)使用霍夫变换来查找直线,同时过滤角度不合理的直线;(3)通过直线求交点运算,得到银行卡轮廓的4个角点;(4)对图像使用投影变换,获得矫正后的图像。对于银行卡边缘不完整的情况,可以使用车牌识别领域中常用的Radon变换[20]进行处理。综上所述,银行卡拍摄角度的矫正过程如图2所示。1.1.2数字区域获取目前主流的银行卡上的数字区域可以分为喷涂式和按压式2类。喷涂式的数字通常采用深色的颜色,使之与浅色的背景作区分,该类型银行卡的数字区域的定位相对较为简单;而按压式银行卡,其数字区域和卡片背景具有一致的颜色,只能通过检测按压区域的光线变化进行检测。对于喷涂银行卡,其核心预处理是先做二值化,再做闭操作,最后重复多次膨胀和腐蚀连接相邻的数字区域。考虑到银行卡中的数
84图像处理与计算机视觉2020年1.2.1CNN模型用于识别单个数字的CNN网络模型结构如图4所示。网络共包括3个卷积层,3个Maxpooling层,2个全连接层,1个Softmax输出层。考虑到银行卡数字和背景颜色的无关性,该模型的输入大小为宽度w=30,高度h=46的单通道灰度图,最终将输出图像分成11类,类别0到9为对应的数字标签,类别10为非数字区域标签。1.2.2数据增强考虑到数字区域提取部分结果必然存在一定的误差(如透视投影畸变、字符区域有少量像素被截取等),合理的数据增强是提升CNN识别准确率的关键因素之一。(1)数字标签数据。数字标签为0到9共10类,每个训练图片为一个完整的单个数字字符的图像。这类图片的增强方法包括:x方向平移像素k;y方向平移像素k;中心旋转角度k。其中k∈[2,2]。(2)非数字区域标签数据。该类标签数据来源于:银行卡背景、其他非数字字符、以及同时存在2个字符的情况。通过上述数据增强(图5),每一类标签的训练数据大约为2000,训练图片数据总量约为2万。(a)黑底数字银行卡原图(b)灰度图、高斯模糊、归一化(c)二值化(d)形态学(e)按压数字银行卡原图(f)高斯模糊、Laplace变换(g)形态学(h)Otsu阈值法二值化图3数字区域获取测((a)~(d)为喷涂银行卡样例;(e)~(h)为按压银行卡样例)图4CNN模型示意图(a)数字标签数据增强(b)非数字标签增强图5数据增强
【参考文献】:
期刊论文
[1]面向小目标的多尺度Faster-RCNN检测算法[J]. 黄继鹏,史颖欢,高阳. 计算机研究与发展. 2019(02)
[2]基于Sobel算子和Radon变换的车牌倾斜校正方法[J]. 吴丽丽,余春艳. 计算机应用. 2013(S1)
[3]一种身份证图像自动识别中文字定位与分割的方法[J]. 黄山,李岱璋,尚建华. 计算机应用研究. 2002(10)
[4]车牌识别(LPR)中的图像提取及分割[J]. 刘智勇,刘迎建. 中文信息学报. 2000(04)
本文编号:3091165
【文章来源】:图学学报. 2020,41(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
银行卡数字识别方法框架
第1期李尚林,等:基于CNN的银行卡数字识别方法83CNN的具体模型结构。(3)数字识别。使用CNN滑窗算法分割单个数字,以及如何使用平滑优化算法获得更加准确的数字序列。图1银行卡数字识别方法框架1.1数字区域提取当前市面上绝大多数银行卡均符合国际ISO/IEC7810中的ID-1标准,尺寸为85.60mm×53.98mm。移动设备的拍照识别程序通常都会利用该长宽比引导用户拍摄银行卡,因此,本文假设获取到的银行卡影像是完整的。1.1.1倾斜校正由于拍摄位置的自由性,使用移动设备获取的银行卡图像通常存在一定的角度倾斜,角度较大的图像会严重影响后续的识别。考虑到算法的鲁棒性,需要分2种情况考虑。对于银行卡边缘完整的情况,可以考虑先获取银行卡边缘,再对图像进行投影校正。具体方法如下:(1)使用Canny算子来获取边缘;(2)使用霍夫变换来查找直线,同时过滤角度不合理的直线;(3)通过直线求交点运算,得到银行卡轮廓的4个角点;(4)对图像使用投影变换,获得矫正后的图像。对于银行卡边缘不完整的情况,可以使用车牌识别领域中常用的Radon变换[20]进行处理。综上所述,银行卡拍摄角度的矫正过程如图2所示。1.1.2数字区域获取目前主流的银行卡上的数字区域可以分为喷涂式和按压式2类。喷涂式的数字通常采用深色的颜色,使之与浅色的背景作区分,该类型银行卡的数字区域的定位相对较为简单;而按压式银行卡,其数字区域和卡片背景具有一致的颜色,只能通过检测按压区域的光线变化进行检测。对于喷涂银行卡,其核心预处理是先做二值化,再做闭操作,最后重复多次膨胀和腐蚀连接相邻的数字区域。考虑到银行卡中的数
84图像处理与计算机视觉2020年1.2.1CNN模型用于识别单个数字的CNN网络模型结构如图4所示。网络共包括3个卷积层,3个Maxpooling层,2个全连接层,1个Softmax输出层。考虑到银行卡数字和背景颜色的无关性,该模型的输入大小为宽度w=30,高度h=46的单通道灰度图,最终将输出图像分成11类,类别0到9为对应的数字标签,类别10为非数字区域标签。1.2.2数据增强考虑到数字区域提取部分结果必然存在一定的误差(如透视投影畸变、字符区域有少量像素被截取等),合理的数据增强是提升CNN识别准确率的关键因素之一。(1)数字标签数据。数字标签为0到9共10类,每个训练图片为一个完整的单个数字字符的图像。这类图片的增强方法包括:x方向平移像素k;y方向平移像素k;中心旋转角度k。其中k∈[2,2]。(2)非数字区域标签数据。该类标签数据来源于:银行卡背景、其他非数字字符、以及同时存在2个字符的情况。通过上述数据增强(图5),每一类标签的训练数据大约为2000,训练图片数据总量约为2万。(a)黑底数字银行卡原图(b)灰度图、高斯模糊、归一化(c)二值化(d)形态学(e)按压数字银行卡原图(f)高斯模糊、Laplace变换(g)形态学(h)Otsu阈值法二值化图3数字区域获取测((a)~(d)为喷涂银行卡样例;(e)~(h)为按压银行卡样例)图4CNN模型示意图(a)数字标签数据增强(b)非数字标签增强图5数据增强
【参考文献】:
期刊论文
[1]面向小目标的多尺度Faster-RCNN检测算法[J]. 黄继鹏,史颖欢,高阳. 计算机研究与发展. 2019(02)
[2]基于Sobel算子和Radon变换的车牌倾斜校正方法[J]. 吴丽丽,余春艳. 计算机应用. 2013(S1)
[3]一种身份证图像自动识别中文字定位与分割的方法[J]. 黄山,李岱璋,尚建华. 计算机应用研究. 2002(10)
[4]车牌识别(LPR)中的图像提取及分割[J]. 刘智勇,刘迎建. 中文信息学报. 2000(04)
本文编号:3091165
本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/3091165.html