基于上下文信息聚合的语义分割与目标检测算法研究
发布时间:2021-01-08 02:47
图像语义分割(Semantic Segmentation)是计算机视觉领域经典的任务之一,它属于高层次的视觉任务并且在图像理解中扮演着及其重要的角色。图像语义分割属于密集像素分类问题,它的目的是为图像中每个像素点进行准确分类。图像目标检测(Object Detection)则是计算机视觉中另一个经典任务。相对于图像语义分割,图像目标检测属于计算机视觉的中层次任务,它的目的是为图像中存在的物体进行分类并找到其所对应的包围框。图像语义分割和图像目标检测任务都是由分类和定位两个子任务组成。近年来,深度学习(Deep Learning)在计算机视觉领域中发展迅速,而卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的重中之重,愈来愈多的研究者将目光聚焦于此。相对于传统的图像处理算法,卷积神经网络能够高效地提取图像特征,基于此特点,卷积神经网络也为图像语义分割和图像目标检测任务提供了新的研究思路。目前大部分的卷积神经网络是为图像物体分类而设计的,并不能够直接用来解决语义分割或者目标检测问题。这种网络的深层可以很好地提取语义信息,这些语义信息虽然对物体分...
【文章来源】:南京邮电大学江苏省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图像语义分割说明图
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍6第二章相关背景知识介绍2.1图像语义分割关键技术介绍2.1.1基于全卷积神经网络的图像语义分割框架介绍JonathanLong发表在CVPR2015会议上的《FullyConvolutionalNetworksforSemanticSegmentation》[14]创造性地使用深度学习方法来解决图像语义分割任务。这篇文章同时也吸引了愈来愈多的研究者,将目光聚焦在基于深度学习的图像语义分割。文中提出的全卷积神经网络(FullyConvolutionalNetworks,FCN)作为卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于图像语义分割的开山鼻祖,后面提出的一系列用于语义分割的卷积网络架构基本都是基于它的思想提出的,如DeepLab[15,16,17]系列,PSPNet[18]等。对于图像分类任务,最后输出的是该图片中存在的物体对应数据集中每个类别的概率,CNN必须要通过设置全连接层来帮助分类。FCN的设计思想相对来说比较简单,就是将用于分类任务的CNN应用到语义分割任务中来。如图2.1所示,本节以分类卷积神经网络为例,它是由卷积层,激活层,池化层和全连接层所构成的,且网络的最后三层均为全连接层。经过分类器之后,网络最后输出的是数据集中每个类别的概率。这种分类网络显然不能够直接用来解决图像语义分割任务,因此FCN将分类网络中最后的全连接层舍弃并将其转换为卷积层,其余部分保持不变。这样做的原因是:相对于全连接层,卷积层可以保留较高的图像分辨率,有利于图像语义分割这种像素级预测任务。也正是因为FCN架构中只存在卷积层进行信息提取,所以它被命名为全卷积神经网络。“猫”猫的“heatmap”卷积化图2.1基础的FCN网络结构
┙?薪岷稀>」苣壳耙丫?幸恍┕ぷ魈岢隽诵滦退惴ㄈツ夂螪CNN的多层关联性,但DenseCRF与它们对比具有很大的优越性。一方面,DenseCRF在计算远距离像素点与当前像素点之前的关系时,能够更加高效,另一方面,通过对周围像素点关系的学习,其可以更好地捕捉图像中物体的位置和细节信息。下采样是通过池化或者带步长的卷积来降低图像分辨率的操作,因此会丢失一部分位置信息。Deeplabv1创造性地在DCNN中提出了扩张卷积(Dilatedconvolution)来解决这个问题,扩张卷积可以在不改变特征图分辨率的情况下,增大特征图的感受野。图2.2扩张卷积如图2.2所示,其中(a)图表示扩张率为0的扩张卷积(即3×3的普通卷积),其感受野大小为3×3,(b)图表示的是扩张率为1的扩张卷积,其感受野大小为7×7,(c)图为扩张率为3的扩张卷积,其感受野大小为15×15。扩张卷积能在不降低分辨率的前提下,增大特征图的感受野,这种特性就能够保证像素信息不丢失。PSPNet(PyramidSceneParsingNetwork)[18]是另一个基于FCN的语义分割网络架构。PSPNet采用了带扩张卷积的残差网络(ResNet)[4]作为骨干网,对输入图像进行特征提龋然后使用金字塔池化模块(ParamidPoolingModule,PPM)对骨干网输出的特征图进行多尺度信息提龋PPM是由四个全局池化层并行组成的。池化层的感受野分别为输入图像大小,图像大小的一半以及更小的区域。随后再将池化得到特征与输入的特征图堆叠融合作为全局先验信息,最后使用1×1大小的卷积将特征图映射到语义分数图(scoremap),经过分类器得到最后的分割预测图。PSPNet的网络层数较多,想要端到端进行训练存在一定的难度。因此,PSPNet采用了辅助损失函数来简化网络模型训练的难度,通过这个辅助的损失函数就能将反向传播的梯度传到网
【参考文献】:
期刊论文
[1]基于深度卷积神经网络的小目标检测算法[J]. 李航,朱明. 计算机工程与科学. 2020(04)
[2]深度学习目标检测方法综述[J]. 赵永强,饶元,董世鹏,张君毅. 中国图象图形学报. 2020(04)
[3]基于深度学习的图像语义分割研究进展[J]. 李新叶,宋维. 科学技术与工程. 2019(33)
硕士论文
[1]自动驾驶场景下的行人检测研究[D]. 向国徽.重庆理工大学 2019
本文编号:2963755
【文章来源】:南京邮电大学江苏省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图像语义分割说明图
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍6第二章相关背景知识介绍2.1图像语义分割关键技术介绍2.1.1基于全卷积神经网络的图像语义分割框架介绍JonathanLong发表在CVPR2015会议上的《FullyConvolutionalNetworksforSemanticSegmentation》[14]创造性地使用深度学习方法来解决图像语义分割任务。这篇文章同时也吸引了愈来愈多的研究者,将目光聚焦在基于深度学习的图像语义分割。文中提出的全卷积神经网络(FullyConvolutionalNetworks,FCN)作为卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于图像语义分割的开山鼻祖,后面提出的一系列用于语义分割的卷积网络架构基本都是基于它的思想提出的,如DeepLab[15,16,17]系列,PSPNet[18]等。对于图像分类任务,最后输出的是该图片中存在的物体对应数据集中每个类别的概率,CNN必须要通过设置全连接层来帮助分类。FCN的设计思想相对来说比较简单,就是将用于分类任务的CNN应用到语义分割任务中来。如图2.1所示,本节以分类卷积神经网络为例,它是由卷积层,激活层,池化层和全连接层所构成的,且网络的最后三层均为全连接层。经过分类器之后,网络最后输出的是数据集中每个类别的概率。这种分类网络显然不能够直接用来解决图像语义分割任务,因此FCN将分类网络中最后的全连接层舍弃并将其转换为卷积层,其余部分保持不变。这样做的原因是:相对于全连接层,卷积层可以保留较高的图像分辨率,有利于图像语义分割这种像素级预测任务。也正是因为FCN架构中只存在卷积层进行信息提取,所以它被命名为全卷积神经网络。“猫”猫的“heatmap”卷积化图2.1基础的FCN网络结构
┙?薪岷稀>」苣壳耙丫?幸恍┕ぷ魈岢隽诵滦退惴ㄈツ夂螪CNN的多层关联性,但DenseCRF与它们对比具有很大的优越性。一方面,DenseCRF在计算远距离像素点与当前像素点之前的关系时,能够更加高效,另一方面,通过对周围像素点关系的学习,其可以更好地捕捉图像中物体的位置和细节信息。下采样是通过池化或者带步长的卷积来降低图像分辨率的操作,因此会丢失一部分位置信息。Deeplabv1创造性地在DCNN中提出了扩张卷积(Dilatedconvolution)来解决这个问题,扩张卷积可以在不改变特征图分辨率的情况下,增大特征图的感受野。图2.2扩张卷积如图2.2所示,其中(a)图表示扩张率为0的扩张卷积(即3×3的普通卷积),其感受野大小为3×3,(b)图表示的是扩张率为1的扩张卷积,其感受野大小为7×7,(c)图为扩张率为3的扩张卷积,其感受野大小为15×15。扩张卷积能在不降低分辨率的前提下,增大特征图的感受野,这种特性就能够保证像素信息不丢失。PSPNet(PyramidSceneParsingNetwork)[18]是另一个基于FCN的语义分割网络架构。PSPNet采用了带扩张卷积的残差网络(ResNet)[4]作为骨干网,对输入图像进行特征提龋然后使用金字塔池化模块(ParamidPoolingModule,PPM)对骨干网输出的特征图进行多尺度信息提龋PPM是由四个全局池化层并行组成的。池化层的感受野分别为输入图像大小,图像大小的一半以及更小的区域。随后再将池化得到特征与输入的特征图堆叠融合作为全局先验信息,最后使用1×1大小的卷积将特征图映射到语义分数图(scoremap),经过分类器得到最后的分割预测图。PSPNet的网络层数较多,想要端到端进行训练存在一定的难度。因此,PSPNet采用了辅助损失函数来简化网络模型训练的难度,通过这个辅助的损失函数就能将反向传播的梯度传到网
【参考文献】:
期刊论文
[1]基于深度卷积神经网络的小目标检测算法[J]. 李航,朱明. 计算机工程与科学. 2020(04)
[2]深度学习目标检测方法综述[J]. 赵永强,饶元,董世鹏,张君毅. 中国图象图形学报. 2020(04)
[3]基于深度学习的图像语义分割研究进展[J]. 李新叶,宋维. 科学技术与工程. 2019(33)
硕士论文
[1]自动驾驶场景下的行人检测研究[D]. 向国徽.重庆理工大学 2019
本文编号:2963755
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2963755.html
最近更新
教材专著