基于深度学习的自然场景下多方向中文文本识别
发布时间:2021-06-02 22:13
图像中的文本信息能为人们和计算机解读图像场景提供重要的帮助,对自然场景下的图像进行文本识别是当前最热门的研究领域之一。自然场景下的文本识别一般要经过检测图像中的文本区域和对文本区域进行文字识别这二个步骤。本文主要研究自然场景下的文本检测和文本识别算法,最后将检测和识别连接起来,实现了文本识别的端到端系统。针对自然场景下的图像文本检测,本文提出了基于改进Faster RCNN的多方向文本检测算法。通过在VGG16特征提取网络中加入SE模块,提升了网络性能。对于bounding box的回归,加入了文本块矩形的角度信息,可以检测多方向的文本。针对场景文本的多方向特点,在anchor选取上加入了角度变量生成更多的anchor。最后在公开的标准数据集上对本文提出的检测算法进行实验,通过对比一些现有的检测算法,表明本文的算法有较好的检测性能。本文还研究了中文文本的识别方法,提出了改进的STN-CRNN方法识别检测出的文本区域。STN-CRNN先将文本框图像进行文本矫正,再送入文本识别网络进行识别。文本识别网络对矫正后的文本图像进行特征提取,编码生成特征向量序列。然后在解码器模块引入注意力机制来对...
【文章来源】:南昌大学江西省 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
原图及其MSER区域
第2章相关理论知识介绍9自然场景下的文本区域不同于背景区域,文本区域一般都有相似的像素值,因此把图像中的文字区域可当作最大稳定极值区域。利用文本区域的这一特性可以从场景图像中提取出文字候选区域,采用特定的过滤规则把非文字区域部分过滤掉,得到最终的文字区域。MSER特征虽然在英文文本检测中能有很好的效果,但由于中文中笔画分离的字符比较多,这些都是不连通的,因此用MSER检测方法来检测中文,就会效果不好。2.1.2笔画宽度变换笔画宽度变换(StrokeWidthTransformation,SWT)[30]是由EOfek等人提出的特征。根据在同一行文本中笔画的宽度大致相同这一特点,找到笔画宽度类似的区域就是图像的文本区域。SWT提取特征不同于其它特征提取方式,采用对像素组的区域进行特征提取的方式,对文本区域采用自上而下的合并方式,而不是通过对单个像素进行特征提龋SWT方法对先验知识减少了依赖,可将其应用到不同语种的文本检测任务上。算法用单通道的灰度图像作为输入,最终输出的是二值图像,该二值图像包含检测到的文本区域。SWT算法的过程展示如图2.2所示,对图像中的所有的像素点进行计算梯度方向和Canny边缘化操作。设定一个矩阵大小等于输入图像的维度的二维矩阵I,初始化I中每一个元素为正无穷。然后读取图像的每个边缘点和该点对应的梯度信息,沿着与该梯度方向相反的方向寻找边缘点,在矩阵I中写入计算得到的两点间的距离w,取对应点的初始值和w中的较小值填充进I中对应位置。计算完所有的边缘点进行矩阵I的更新,得到的就是该图像的笔画宽度图。由于是通过计算得到的笔画宽度不是完全一致的,要想得到最终的包含文本区域的图像,还要合并离散点为连通区域。图2.2笔画、边缘与梯度信息
第2章相关理论知识介绍11率,而one-stage目标检测算法比two-stage目标检测算法有更快的检测速度。二种目标检测算法最大的区别是有无生成候选区域的过程。本节主要介绍R-CNN系列、YOLO、SSD的目标检测算法。2.2.1基于R-CNN的目标检测传统的检测算法目前已经有了很多的成果,但是这些目标检测算法的性能已经到了上限。互联网大数据的发展导致图像的数据量和标注信息有了井喷式增加,在越来越多的场景上CNN算法体现出了其优越性,因此目标检测的研究重点是以CNN为基矗RossGirshick等[34]在2014年设计并提出了RegionCNN目标检测算法,紧接着又先后提出了基于RegionCNN的缺点而改进的FastR-CNN和FasterR-CNN算法。2.2.1.1R-CNN在传统的目标检测方法中,候选区域的获取尤为重要,一般采用滑动窗口的方法来获取,但滑动窗口存在的缺陷就是不能将图像的全局特征利用起来,而且容易出现冗余的情况。传统的物体检测方法的时间复杂度相对较高。首次将深度学习方法应用到物体检测上的通用算法框架就是R-CNN,R-CNN不同于传统的手工设计特征和滑动窗口方式,采用CNN分类和生成候选区域的方式,这是目标检测领域的一个阶段性的巨大发展。R-CNN的整体检测流程如图2.3所示。图2.3R-CNN的检测流程与滑动窗口技术不同,R-CNN在提取候选区域时选用的是selectivesearch选择性搜索算法[28]。该算法提取图像特征时综合了边缘、纹理和色彩等信息,在候选窗口较少的情况下,也能得到较高的召回率。不同于长宽比固定的滑动窗口,通过选择性搜索算法获取到的候选窗口的大小不统一,这样有利于各种形状的
【参考文献】:
期刊论文
[1]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽. 自动化学报. 2018(12)
[2]基于深度学习的场景文字检测与识别[J]. 白翔,杨明锟,石葆光,廖明辉. 中国科学:信息科学. 2018(05)
[3]自然场景图像中的中文文本检测算法[J]. 缪裕青,刘水清,张万桢,欧威健,蔡国永. 计算机工程与设计. 2018(03)
[4]基于笔画角度变换和宽度特征的自然场景文本检测[J]. 陈硕,郑建彬,詹恩奇,汪阳. 计算机应用研究. 2019(04)
[5]视频和图像文本提取方法综述[J]. 蒋梦迪,程江华,陈明辉,库锡树. 计算机科学. 2017(S2)
[6]自然场景图像中的文字检测综述[J]. 杨飞. 电子设计工程. 2016(24)
[7]自然场景下基于连通域检测的文字识别算法研究[J]. 刘新瀚,钱侃,王宇飞,朱向霄,孙知信. 计算机技术与发展. 2015(05)
[8]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
硕士论文
[1]自然场景下汉字定位与识别方法研究[D]. 柴伟佳.东北师范大学 2018
[2]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016
[3]自然场景中路牌汉字识别技术研究[D]. 孙彩虹.南京理工大学 2014
本文编号:3210847
【文章来源】:南昌大学江西省 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
原图及其MSER区域
第2章相关理论知识介绍9自然场景下的文本区域不同于背景区域,文本区域一般都有相似的像素值,因此把图像中的文字区域可当作最大稳定极值区域。利用文本区域的这一特性可以从场景图像中提取出文字候选区域,采用特定的过滤规则把非文字区域部分过滤掉,得到最终的文字区域。MSER特征虽然在英文文本检测中能有很好的效果,但由于中文中笔画分离的字符比较多,这些都是不连通的,因此用MSER检测方法来检测中文,就会效果不好。2.1.2笔画宽度变换笔画宽度变换(StrokeWidthTransformation,SWT)[30]是由EOfek等人提出的特征。根据在同一行文本中笔画的宽度大致相同这一特点,找到笔画宽度类似的区域就是图像的文本区域。SWT提取特征不同于其它特征提取方式,采用对像素组的区域进行特征提取的方式,对文本区域采用自上而下的合并方式,而不是通过对单个像素进行特征提龋SWT方法对先验知识减少了依赖,可将其应用到不同语种的文本检测任务上。算法用单通道的灰度图像作为输入,最终输出的是二值图像,该二值图像包含检测到的文本区域。SWT算法的过程展示如图2.2所示,对图像中的所有的像素点进行计算梯度方向和Canny边缘化操作。设定一个矩阵大小等于输入图像的维度的二维矩阵I,初始化I中每一个元素为正无穷。然后读取图像的每个边缘点和该点对应的梯度信息,沿着与该梯度方向相反的方向寻找边缘点,在矩阵I中写入计算得到的两点间的距离w,取对应点的初始值和w中的较小值填充进I中对应位置。计算完所有的边缘点进行矩阵I的更新,得到的就是该图像的笔画宽度图。由于是通过计算得到的笔画宽度不是完全一致的,要想得到最终的包含文本区域的图像,还要合并离散点为连通区域。图2.2笔画、边缘与梯度信息
第2章相关理论知识介绍11率,而one-stage目标检测算法比two-stage目标检测算法有更快的检测速度。二种目标检测算法最大的区别是有无生成候选区域的过程。本节主要介绍R-CNN系列、YOLO、SSD的目标检测算法。2.2.1基于R-CNN的目标检测传统的检测算法目前已经有了很多的成果,但是这些目标检测算法的性能已经到了上限。互联网大数据的发展导致图像的数据量和标注信息有了井喷式增加,在越来越多的场景上CNN算法体现出了其优越性,因此目标检测的研究重点是以CNN为基矗RossGirshick等[34]在2014年设计并提出了RegionCNN目标检测算法,紧接着又先后提出了基于RegionCNN的缺点而改进的FastR-CNN和FasterR-CNN算法。2.2.1.1R-CNN在传统的目标检测方法中,候选区域的获取尤为重要,一般采用滑动窗口的方法来获取,但滑动窗口存在的缺陷就是不能将图像的全局特征利用起来,而且容易出现冗余的情况。传统的物体检测方法的时间复杂度相对较高。首次将深度学习方法应用到物体检测上的通用算法框架就是R-CNN,R-CNN不同于传统的手工设计特征和滑动窗口方式,采用CNN分类和生成候选区域的方式,这是目标检测领域的一个阶段性的巨大发展。R-CNN的整体检测流程如图2.3所示。图2.3R-CNN的检测流程与滑动窗口技术不同,R-CNN在提取候选区域时选用的是selectivesearch选择性搜索算法[28]。该算法提取图像特征时综合了边缘、纹理和色彩等信息,在候选窗口较少的情况下,也能得到较高的召回率。不同于长宽比固定的滑动窗口,通过选择性搜索算法获取到的候选窗口的大小不统一,这样有利于各种形状的
【参考文献】:
期刊论文
[1]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽. 自动化学报. 2018(12)
[2]基于深度学习的场景文字检测与识别[J]. 白翔,杨明锟,石葆光,廖明辉. 中国科学:信息科学. 2018(05)
[3]自然场景图像中的中文文本检测算法[J]. 缪裕青,刘水清,张万桢,欧威健,蔡国永. 计算机工程与设计. 2018(03)
[4]基于笔画角度变换和宽度特征的自然场景文本检测[J]. 陈硕,郑建彬,詹恩奇,汪阳. 计算机应用研究. 2019(04)
[5]视频和图像文本提取方法综述[J]. 蒋梦迪,程江华,陈明辉,库锡树. 计算机科学. 2017(S2)
[6]自然场景图像中的文字检测综述[J]. 杨飞. 电子设计工程. 2016(24)
[7]自然场景下基于连通域检测的文字识别算法研究[J]. 刘新瀚,钱侃,王宇飞,朱向霄,孙知信. 计算机技术与发展. 2015(05)
[8]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
硕士论文
[1]自然场景下汉字定位与识别方法研究[D]. 柴伟佳.东北师范大学 2018
[2]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016
[3]自然场景中路牌汉字识别技术研究[D]. 孙彩虹.南京理工大学 2014
本文编号:3210847
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3210847.html