自上而下注意图分割的细粒度图像分类
发布时间:2019-09-26 01:30
【摘要】:目的针对细粒度图像分类中的背景干扰问题,提出一种利用自上而下注意图分割的分类模型。方法首先,利用卷积神经网络对细粒度图像库进行初分类,得到基本网络模型。再对网络模型进行可视化分析,发现仅有部分图像区域对目标类别有贡献,利用学习好的基本网络计算图像像素对相关类别的空间支持度,生成自上而下注意图,检测图像中的关键区域。再用注意图初始化GraphCut算法,分割出关键的目标区域,从而提高图像的判别性。最后,对分割图像提取CNN特征实现细粒度分类。结果该模型仅使用图像的类别标注信息,在公开的细粒度图像库Cars196和Aircrafts100上进行实验验证,最后得到的平均分类正确率分别为86.74%和84.70%。这一结果表明,在GoogLeNet模型基础上引入注意信息能够进一步提高细粒度图像分类的正确率。结论基于自上而下注意图的语义分割策略,提高了细粒度图像的分类性能。由于不需要目标窗口和部位的标注信息,所以该模型具有通用性和鲁棒性,适用于显著性目标检测、前景分割和细粒度图像分类应用。
【图文】:
学习,从而提高分类正确率。但是,不同于上述方法,本文方法具有以下几个特点:1)不需要目标和部位的标注信息,仅使用类别标签信息,增加模型的通用性;2)采用卷积神经网络模型生成自上而下的注意图来分割目标,增强模型的鲁棒性;3)所提模型能够同时实现图像的显著性检测、目标分割与分类,具有广泛的应用。最后,采用自上而下注意图分割的判别性学习方法在公开的细粒度图像库Cars196[19]和Aircraft100[20]中进行实验分析,结果表明,所提方法能够有效提升分类性能。1模型概述具体的模型框架如图1(a)所示,首先用CNN模型对图像进行初分类,得到基本网络模型为BaseNet;然后使用梯度可视化方法对BaseNet进行可视化分析,发现仅有部分图像区域对目标类别有贡献,给定一幅图像和感兴趣的类别,在BaseNet上使用BP(backpropagation)算法进行梯度反传,生成该图像针对特定类别的自上而下注意图;再利用生成的注意图初始化GraphCut[21]算法,对图像进行语义目标分割;最后对分割图像进行CNN特征学习得到分割网络模型SegNet,迫使卷积神经网络集中关注于图像的关键区域,从而提高细粒度图像分类的性能。卷积神经网络是一个特征学习模型,能够自动学习数据集的样本特征,不需要人为参与和设计,具有很强的鲁棒性,分类性能远远超过HOG和SIFT(scaleinvariantfeaturetransform)等传统特征。常用的CNN模型主要包括AlexNet[4],GoogLeNet[22]和VGG[23]等网络结构,本文选择分类性能最好的GoogLeNet作为基本网络,如图1(b)所示,该网络具有22层结构,由于网络层数较深,参数太多,直接使用较小的数据库学习所有参数会导致过拟合和梯度弥散等问题,所以本文使用ImageNet对网络进
1,…,,L-1Sc(I)(2)式中,L表示目标数据库的类别数,对于CNN模型,Sc(I)是高度非线性的,所以在图像I0处对Sc(I)进行一阶的泰勒级数展开得到Sc(I)≈WTI+b(3)W=
本文编号:2541745
【图文】:
学习,从而提高分类正确率。但是,不同于上述方法,本文方法具有以下几个特点:1)不需要目标和部位的标注信息,仅使用类别标签信息,增加模型的通用性;2)采用卷积神经网络模型生成自上而下的注意图来分割目标,增强模型的鲁棒性;3)所提模型能够同时实现图像的显著性检测、目标分割与分类,具有广泛的应用。最后,采用自上而下注意图分割的判别性学习方法在公开的细粒度图像库Cars196[19]和Aircraft100[20]中进行实验分析,结果表明,所提方法能够有效提升分类性能。1模型概述具体的模型框架如图1(a)所示,首先用CNN模型对图像进行初分类,得到基本网络模型为BaseNet;然后使用梯度可视化方法对BaseNet进行可视化分析,发现仅有部分图像区域对目标类别有贡献,给定一幅图像和感兴趣的类别,在BaseNet上使用BP(backpropagation)算法进行梯度反传,生成该图像针对特定类别的自上而下注意图;再利用生成的注意图初始化GraphCut[21]算法,对图像进行语义目标分割;最后对分割图像进行CNN特征学习得到分割网络模型SegNet,迫使卷积神经网络集中关注于图像的关键区域,从而提高细粒度图像分类的性能。卷积神经网络是一个特征学习模型,能够自动学习数据集的样本特征,不需要人为参与和设计,具有很强的鲁棒性,分类性能远远超过HOG和SIFT(scaleinvariantfeaturetransform)等传统特征。常用的CNN模型主要包括AlexNet[4],GoogLeNet[22]和VGG[23]等网络结构,本文选择分类性能最好的GoogLeNet作为基本网络,如图1(b)所示,该网络具有22层结构,由于网络层数较深,参数太多,直接使用较小的数据库学习所有参数会导致过拟合和梯度弥散等问题,所以本文使用ImageNet对网络进
1,…,,L-1Sc(I)(2)式中,L表示目标数据库的类别数,对于CNN模型,Sc(I)是高度非线性的,所以在图像I0处对Sc(I)进行一阶的泰勒级数展开得到Sc(I)≈WTI+b(3)W=
本文编号:2541745
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2541745.html