面向复杂自然场景的交通标识文本检测研究

发布时间:2021-06-15 12:32
  目前,自然场景文本检测已成为计算机视觉领域中的热门研究方向,交通标识文本属于自然场景文本的一种,它在无人驾驶系统的视觉感知环节中占有重要地位。尽管研究者们在交通标识检测领域已取得了很好的成果,但是针对交通标识文本检测的研究却很少。事实上,交通标识文本包含了丰富且有价值的交通信息,若能将其与交通标识的检测相结合,则可为相关应用的开发带来更大的益处。本文针对国内交通标识文本提出了一种有效的文本检测方法,该方法仅包括一个全卷积网络(Fully Convolutional Network,FCN)和一个简单的后处理步骤,特殊设计的头尾文本像素定位法使得该检测器对于尺度较长、排布稀疏的词组检测性能鲁棒。该方法在本课题组构建的国内交通标识文本数据集(CTST-1600)上进行了测试,所获得的F值为0.79。与此同时,在公共数据集ICDAR 2013和MSRA-TD500上的测试结果与相关最先进方法相比也获得了具有竞争力的结果,实验结果表明该方法在应对交通标识文本检测以及其他复杂场景文本检测具有较好的适应性。实验中发现第4章方法在应对复杂光线条件下的检测效果以及网络运行速度方面存在不足,针对上述问题... 

【文章来源】:湖南师范大学湖南省 211工程院校

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

面向复杂自然场景的交通标识文本检测研究


VGG16的网络结构图

残差图,残差,单元


硕士学位论文82.1.2残差网络Resnet当卷积神经网络模型发展到一定程度后,研究者们开始发现一个非常矛盾的问题,即按通常思考,网络理应层数越深则学习能力越强,提取特征能力越好,但实验结果却证明当模型层数增加到某种程度时,模型的效果将会不升反降,2015年,来自中国的研究者何凯明提出的残差网络Resnet完美解决了这一问题。在深度学习领域,凭借“深度学习网络越深则表达能力越强”这一基本准则,CNN(ConvolutionalNeuralNetwork,卷积神经网络)自Alexnet[41]的7层发展到了VGG的19层,再后来出现了Googlenet的22层。然而,实验发现深层的CNN网络在一味地增加至一定层数后并不能继续带来性能的提升,反而导致网络收敛速度变慢,测试集上的分类准确率也变得更差了。这一问题给当时的研究学者们带来了困扰,此时Resnet的作者联想到计算机视觉领域常常用到的residualrepresentation(残差表示)这一概念,并将其用在了CNN模型的构建中,它学习的是输入输出之间的残差表示,而不像一般CNN网络学习直接学习输入输出之间的映射关系。实验表明,前一种学习方法要比后一种收敛速度更快,且能够达到更高的精度。图2.2为残差学习的基本单元,表示了其学习的基本思想。若将输入设为X,将某一有参网络层设为H,那么以X为输入的此层的输出将为H(X)。一般的CNN网络(如Alexnet/VGG等)会直接通过训练学习出参数函数H的表达,从而直接学习X->H(X)。而残差学习则是旨在使用多个有参网络层来学习输入、输出之间的参差:H(X)-X,即学习X->(H(X)-X)+X。其中X这一部分为直接的identitymapping,而H(X)-X则为有参网络层要学习的输入输出间残差。图2.2残差学习的基本单元

示意图,全连接,卷积,示意图


面向复杂自然场景的交通标识文本检测研究92.1.3全卷积网络FCN如上一小节所述,目标检测识别任务中的基础网络,除了常见的VGGNet、ResNet、InceptionNet等以外,还有一些属于专用网络模型,它们来自于特定场景。例如FCN,它对图像细节特征的提取颇为擅长,再比如STN[40],它则非常适合做图形矫正。全卷积网络指删去了全连接(fc)层的基础网络,最初被用来实现语义分割任务,如图2.3所示,展示了FCN将全连接层转化为卷积层的过程。FCN的优势在于利用反卷积(deconvolution)、上池化(unpooling)等上采样(upsampling)操作,将特征图放大回与原图尺寸大小接近,然后为每一个位置上的像素都预测所属分类,这样便能使物体边界的识别更为清晰。基于FCN的模型可经由高分辨率的特征图直接预测物体边框,而不再依赖候选区域来回归。FCN的另一优点是它更能很好地预测不规则的物体边界,因为它不需要像R-CNN系列网络那样预先在训练前人为设定候选框的长宽比例。为了避免对全卷积部分的输出直接进行反卷积所带来的不精细的结果。FCN的另一创新点是引入了跳跃连接结构,如图2.4所示,概括地说,就是将不同池化层的结果进行上采样,然后结合这些结果来优化输出。对文本类任务而言,对文字进行检测识别时,为了辨别不同文字,往往要求文字笔画具有较高的清晰度,而FCN最后一层特征图的像素分辨率较高,所以FCN很适合用来提取文字特征。当FCN被用于文字检测识别任务时,最后一层特征图中每个像素将被分成两个类别:即文字(前景)和非文字(背景)。图2.3FCN将全连接层转化为卷积层的示意图

【参考文献】:
期刊论文
[1]聚焦难样本的区分尺度的文字检测方法[J]. 林泓,卢瑶瑶.  浙江大学学报(工学版). 2019(08)
[2]基于深度学习的场景文字检测综述[J]. 姜维,张重生,殷绪成.  电子学报. 2019(05)
[3]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.  自动化学报. 2018(12)
[4]基于深度学习的场景文字检测与识别[J]. 白翔,杨明锟,石葆光,廖明辉.  中国科学:信息科学. 2018(05)



本文编号:3231060

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3231060.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fd01a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com