基于CNN的自然场景文本检测与识别研究

发布时间:2022-02-12 14:03
  自然场景文本检测和识别技术是计算机视觉领域中的重要的研究课题,随着人工智能技术以及智能硬件设备的普及,自然场景文本检测和识别技术受到人们的广泛关注。它在汽车场景文字识别、卡证识别、票据识别、教育场景文字识别等方面具有广泛的应用背景。但由于场景文本图像背景的复杂性和文本本身的多变性,要准确地检测和识别出文本还面临着诸多困难。本文针对自然场景文本图像检测与识别算法进行了研究,具体内容如下:(1)介绍了自然场景文本检测与识别算法的研究现状,分析了场景文本检测与识别技术面临的挑战,并介绍了目前常用的算法。(2)针对CTPN网络只能检测水平和稍微倾斜方向文本的问题,提出了改进的CTPN多方向文本检测算法,并将该算法应用于多方向文本检测与识别系统中。通过对待检测图像进行多角度旋转,使用CTPN网络检测出旋转后图像中文本的初始位置,再对候选文本框进行融合,找出本文的最佳文本框。在对文本框进行融合时,使用文本框融合策略,生成旋转的矩形框来标记文本区域。将该算法在IC15数据集上进行了测试,验证了改进的CTPN多方向文本检测算法的合理性。解决了CTPN网络只能检测近似水平方向文本的问题。(3)提出了改进... 

【文章来源】:山西大学山西省

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于CNN的自然场景文本检测与识别研究


自然场景下文本示例

流程图,流程图,算法,梯度


基于CNN的自然场景文本检测与识别研究10图2.2HOG特征算法流程图具体的HOG算法过程如下所示:①图像归一化为去除光照对图像的影响,对图像进行归一化处理,提高算法的鲁棒性。②梯度值计算分别计算图像的R、G、B三个颜色通道的梯度,再取三个通道的最大梯度值为作为该像素的梯度值。设图像中处的某个通道的像素值为,为水平方向的梯度,为垂直方向的梯度,为梯度幅值,使用模板[-1,0,1]对图像卷积得到,使用模板[-1,0,1]T对图像卷积得到。计算公式如下:(2.1)点处的梯度方向计算公式如下:(2.2)③构建方向梯度直方图将图像分为若干个单元格(cell)和块(block),每个单元格的大小为66个像素,个cell组成一个块。将单元格的梯度方向0o-360o分为九个区间,然后采用线性插值的方式将梯度幅值加权分配到相邻两个角度区间中,同时还需要对像素点块内的其他单元进行双线性插值投票,最后将块内的单元直方图串起来组成直方图块。

流程图,流程图,算法,直方图


第二章自然场景图像中的文本检测概述11④块内归一化由于局部光照变化使得梯度的的变化范围很大,需要对块内梯度直方图做归一化处理。⑤收集特征将检测窗口中重叠的块进行HOG特征收集,并将HOG特征输入到SVM分类器中供分类使用。(2)LBP(LocalBinaryPattern,局部二值模式)特征是一种用来描述图像局部纹理特征的算子,它是首先由Ojala等[43]在1994年提出,用于局部的纹理特征提取,具有旋转和灰度不变性等优点。LBP特征算法流程图如图2.3所示。图2.3LBP特征算法流程图具体的LBP算法过程如下:①划分区域将检测窗口划分为16×16的小区域(cell)。②LBP值求解对cell中的每个像素进行二值化处理,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3×3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值。③归一化计算每个cell的直方图,即每个数字出现的频率,然后对该直方图进行归一化

【参考文献】:
期刊论文
[1]复杂彩色文本图像中字符的提取[J]. 陈又新,刘长松,丁晓青.  中文信息学报. 2003(05)



本文编号:3621853

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3621853.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e704***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com