当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络的自然场景文本检测技术研究

发布时间:2020-06-17 11:36
【摘要】:自然场景的文本检测是从自然场景中实现对文本检测和定位,进而服务与各项应用,在社会的方方面面中都有着越来越重要的作用。使用卷积神经网络检测文本已有一些研究,但是依旧存在很多问题没有解决。本文针对自然场景中的长文本和石碑文本的检测提出新的方法。本文主要研究内容如下:一、针对自然场景下的长文本检测因为文本行的极端长宽比使得大部分网络无法完整检测的问题。本文在网络模型中结合特征激励模块提取通道信息,来抑制背景特征,进而加强前景特征;并提出了新的椭圆形几何回归方式,可以在不添加额外步骤的情况下准确的完成长文本的链接和角度的旋转,提升长文本检测的准确性。二、针对自然场景下的石碑文字因为其文字的“大”超过大部分网络对文字设定的最大限度而不能准确检测的问题。利用深度卷积神经网络作为特征提取工具,将提取到的特征进行图像信息熵计算,取最大熵的值作为文本候选区域的一部分。另一方面,使用特征减弱算法,尽量消除与颜色特征无关的影响,输入最大稳定极值区域算法中或者文本候选区域的一部分。两者的最终结果相结合得到文本区域特征图。结合迁移学习训练一个分类网络,将候选区域输入网络中,得到最终的文本区域。并在此任务研究的过程中制作一个石碑数据集,设计两种不同的标签用以支撑研究任务,并且在这个数据集上与其他最先进的进行了比较试验,验证了这个数据集的挑战性。本文取得的研究成果:一、自然场景下的长文本模型所改进的网络模型有较强的迁移能力,可以用于其他领域的研究;所提出的模型与多个性能优秀的模型进行比较试验,在精准率、召回率、f值中均取得了最好的性能结果。二、自然场景下的石碑文字检测模型结合了深度学习和传统方法,在小数据集中与其他方法相比较,取得了最好的效果。所提出的数据集有足够的挑战性,有扩展的空间。
【学位授予单位】:南宁师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP183
【图文】:

示意图,模型,示意图,文本检测


域建议网络产生的候选目标区域框的大小是固定的,对于长宽比不同的文本测很难找到一个通用的候选框大小,因此这种方法的鲁棒性并不是很高。单纯使用目标检测的框架和方法并不能直接解决文本检测的问题,但是这果激励也大大随后的研究人员,随后全卷积网络[22]空间变换网络[23]被提被出卷积网络是指将每一个像素都分为前景与背景两个类别,这样的分类可以生加精细的检测结果。尤其是文字有独特的笔画结构,依靠笔画对每一个像素行分类非常适用用文本检测。空间变换网络是指输入的特征可以在空间层面矫正,并且可以实现梯度传导进而可以实现端到端的检测。这两个模型提出,很多性能优异的文本检测模型都是在此基础上加以改进提出的。Tian 等人[24]提出的 CTPN 是目前流传最为广泛的文本检测模型,它将文本一个字符串的序列,但不是真正的分割每一个字符,而是使用固定长度文本行分割,一方面使用卷积神经网络来提取每一个分割的每一个小块的局部特用了循环神经网络中的双向长短时记忆网络(BLSTM)来提取序列中上下文息,两者结合最终得到文本行区域。

示意图,融合模型,文本,语义


图 1-2 文本语义融合模型示意图EAST[27]模型是也是极为流行的文本检测模型之一,它使用全卷积神经网络特征,随后对每一个像素点回归其到所属文本行的矩形四条边的距离信息和旋转信息。因此这个方法是可以检测任意角度文本的模型,同时他还通过几变换,可以将一个非矩形的任意凸四边形转化为平行四边形,并对其检测的。SegLink[28]模型在检测文本时不同于 EAST 一次性检测整行文本,它认为检整行文本的难度过大,而检测文本的一部分较为容易,这类似于 CTPN 模型想。其独特的地方在小的文本框之间的连接信息不来自于双向长短时记忆网来自于每个候选框之间、候选框所在层于上下层之间的空间信息,通过邻近的方式形成文本行。这相比产生大量的候选区域并逐一检测要快得多。

【相似文献】

相关期刊论文 前10条

1 张逸扬;储s

本文编号:2717546


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2717546.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f9c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com