基于高分辨率类别激活图的弱监督图像分割方法研究

发布时间：2021-10-06 16:42

　　图像分割是计算机视觉和图像处理领域的核心研究问题之一。语义图像分割,作为其中一个重要的研究分支,其目标是将给定图像中的每个像素分类到某个已知的语义类别。近年来,基于深度卷积神经网络的语义图像分割方法取得了快速的发展,使用像素级标注的全监督方法在多个公开数据集上都取得了不错的表现。然而,这些方法的良好表现尤其依赖于大量的人工标注的图像分割数据。由于人工标注像素类别的成本较高,实际应用中通常难以获得大量的像素级标注数据。为了降低模型对于全像素标注数据的依赖,使用稀疏标注（例如目标边界框、图片类别等）的弱监督语义图像分割方法受到越来越多的关注。目前,针对基于图片类别标注的弱监督语义图像分割问题,主流方法大多采用了一个两阶段的训练框架来解决训练中监督缺失的问题。在这一框架中,第一阶段利用了图片的类别标注来训练一个图像分类模型,用以提取图像中目标对象的粗略定位;第二阶段中粗略的定位信息被转化为图像的伪像素分割标注,用以训练语义分割模型。在这当中,类别激活图（CAM）方法常被用于从图像分类模型中提取图像中语义目标的关注图,以反映目标的大致定位。目标关注图的质量会影响伪像素分割标注的精确度,从而影响...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：66 页

【学位级别】：硕士

【部分图文】：

类别激活图计算过程示意图[19]

框架图,框架图,内容,高分辨率

第1章绪论9错误的学习，本文引入注意力机制来实现特征的重整和增强，使网络关注重要的目标区域，减少无关区域的影响。在深度神经网络中，注意力机制通过学习不同区域的局部特征之间的相关性，重新调整分配网络学习的重点目标，突出重要区域的特征的影响，而弱化不重要的区域的特征的影响。的本文提出了基于“聚合-激活”模块的多尺寸CAM分类网络，通过在融合的大尺寸特征图之后加入注意力模块，以强化特征表示的学习。该方法有效地改善了多尺寸CAM网络在提取高分辨率CAM过程中的表现。缓解了高分辨率特征图中由于噪声和较小的视觉感受也带来的不利影响。（3）利用多尺寸特征融合和引入注意力机制，有效地实现了CAM分辨率的扩张，但是并没有实现真正意义上像素级分辨率的高分辨率CAM生成。受限于分类网络训练的固有模式，和CAM提取的固定计算方法，此类的方法提取的目标关注图依然很难适应复杂的自然图像的场景变化。基于深度学习的图像分割任务中，一个常见的思路是利用解码网络，将分类网络提取到的多尺寸特征融合起来以获取一个高分辨率的特征表示。受到他们的启发，本文提出了一种全新的CAM生成方式，利用编码-解码网络更加彻底地融合图像的个尺寸中间特征，实现了图像级分辨率的目标关注图提龋这种基于编解码网络的高分辨率CAM生成模型放弃了传统的分类网络的训练模式和固定的CAM计算流程，而是采用了启发式的语义一致性优化目标，并结合CAM的稀疏性约束和原始CAM引导，实现了大幅增加CAM精细度，并有效提升了基于CAM的两阶段框架对于弱监督语义图像分割任务的性能表现。图1-2本文研究内容框架图

示意图,卷积核,卷积,张量

第2章基于多尺寸特征融合的高分辨率CAM模型112.2深度卷积网络与多尺寸特征区别于多层感知器（Multi-LayerPerceptron，MLP），深度卷积神经网络（DeepConvolutionalNeuralNetwork，DCNN）的网络层之间并不是全连接的。下一层的某个神经元只对上一层的特定局部范围内的神经元产生响应，这个范围由卷积核控制，由于是受到猫的视觉皮层研究的启发，这个区域也称之为感受野。在图像任务中，通常我们将输入图像视为一个h×w×c的张量，这里h表示高度，w表示宽度，c表示通道数，对于彩色输入图像，通道数就是RGB的3通道。对于此类情形，一个一般的卷积核就是一个k×k×c的张量，这里k是卷积核的尺寸。卷积操作是让卷积核扫描输入张量的各个位置，求得相应的卷积再输出得到新的张量，其过程数学表述如下：+1(,,)=((,,))=(∑(,,)×(,,)(,,)∈(,,))(21)其中，(x,y,z)表示输出张量的某个位点，RF(x,y,z)表示以该位点为中心的卷积核的感受野，f则是激活函数。该过程的一个简单可视化如图2-1所示（h=w=7,k=3,c=1）。图2-13×3卷积核卷积操作示意图对于每一个特定的卷积核，我们都可以在一个输入张量上卷积得到一个特征图输出，但是仅仅一个卷积核的特征提取能力是非常有限的，所以我们可以采用多个不同的卷积核进行同样的操作，再把得到的多个特征图重叠起来，就得到了一个新的张量。图2-1显示的是对于输入张量通道数为1且只采用了一个卷积核的简单例子。事实上，卷积操作还有许多可以设计的细节，例如卷积核在输入张量上的平移步长（Stride），是否采用边缘填补（Padding）等等，关

本文编号：3420382

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3420382.html

上一篇：面向虚拟学习环境的智能问答研究
下一篇：基于内容的暴恐视频识别技术的应用研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|