面向遥感图像分类与检索的深度学习特征表达研究
发布时间:2020-08-03 15:39
【摘要】:近年来,随着我国相继成功发射了高分一号“GH-1”、高分二号“GH-2”、高分三号“GH-3”、高分四号“GH-4”以及高景一号“SuperView-1”等高分辨率遥感卫星,遥感图像数据呈现井喷式增长,这预示着我们正式进入遥感大数据时代。这些数据已经广泛应用于土地利用、资源调查、环境调查、生态恢复、灾害防治、城市建设、国家安全等诸多领域。随之而来的问题是,面对海量的遥感大数据进行存储、管理、检索与分类,如何从高分辨率遥感图像中更加有效地提取特征,实现对高分辨率图像的特征表示,成为了当前高分辨率遥感影像应用面临的新挑战。面向对象的图像分析已经成为高分辨率遥感图像处理的主要手段,并且特征提取正在经历从传统的以光谱特征为主发展为图-谱相结合的人工设计特征提取,到近年来基于数据驱动的特征学习发展新时代。尤其是,在2012年,Krizhevsky等人提出了深度卷积神经网络(Convolutional Neural Network,CNN),是图像识别领域的里程碑式工作,并已在图像识别、目标检测等应用中都取得了巨大成功。基于此,本文以深度CNN为基础,对遥感图像分类与检索中的特征表达展开了深入研究:(1)在深度特征(如预训练CNN模型的全连接层特征)的基础之上,如何学习更具判别力的图像表示,是获得高精度遥感图像分类的关键因素。(2)CNN卷积层特征包含丰富的图像信息,如何从卷积层特征中提取有效的描述,是一个值得深入分析的问题。(3)CNN在一些小规模数据集上的精度趋于饱和,因此,基于大型数据集上的研究,如深度模型的迁移学习及其表示、深度特征的低维映射,是进一步提高分类或检索性能的关键。(4)已有的工作中,提出了许多基于哈希映射的方法来解决海量数据的检索问题,但多数方法采用的是人工设计特征,并且基于深度哈希表示的遥感图像检索研究也相对较少,有必要对其进行深入研究。论文的主要工作与创新如下:(1)全连接层特征提取与判别性卷积核学习:提出了一种提高卷积神经网络(CNN)全连接层特征可区分性的监督卷积核学习方法—DCK(Discriminate Convolutional Kernel)。首先,将CNN提取的4096维全连接层特征重排列为64×64像素的二维图像,以重叠的滑动窗口提取一系列图像块;再以类内最小、类间最大学习准则,学习图像块的判别性卷积核;最后将学习的卷积核应用于每一个图像块的特征变换。两个遥感图像数据集上的实验表明,在不增加特征维数的情况下,基于DCK的深度特征变换有利于提高CNN全连接层特征的分类性能。(2)深度局部描述子提取与特征编码:研究了CNN卷积层特征的局部描述子提取,并提出了描述子级与中层特征级的两种聚合策略,用于融合两种不同的CNN模型。首先,采用CaffeNet与VGG-VD16两种不同深度的CNN,并移除模型中的全连接层。其次,CNN模型的输入采用了图像金字塔,以提取图像在不同尺度下的卷积层特征。然后,将卷积特征图的通道数量作为特征维度,并将多幅卷积特征图在同一个空间位置的特征组合成单个描述子,分别采用Hellinger核和主成分分析对描述子作进一步变换。最后,采用聚合策略获得图像的全局表达。在两个遥感图像数据集上的分类实验表明,基于图像金字塔的深度描述子结合提出的聚合策略,可以获得比全连接层特征更高的分类精度。(3)跨数据集迁移学习表示与深度特征降维:数据是深度学习的核心问题之一,好的学习数据有时甚至比设计一个全新的CNN网络更加有效。因此,利用最近公开的五组大规模遥感图像数据集,分析数据集之间的交叉迁移CNN特征表示。首先,采用了CaffeNet与VGG-VD16两种不同深度的CNN模型,并利用遥感图像数据集对其进行微调学习,对微调后的模型,对比分析了两层全连接层特征的图像表达能力。其次,采用了随机投影的方式,对全连接层特征进行降维。实验同时评价了遥感图像分类与检索两种任务,跨数据集的迁移学习可有效分析不同数据集的泛化表达能力,为其他研究人员在学习数据集的选择提供一定的参考。随机投影降维的优点是不包含学习过程,可避免对大规模遥感图像数据集进行降维子空间的学习。(4)全连接层的深度哈希编码:基于特征编码或深度CNN提取的特征,维度往往比较高,会显著地增加图像之间距离度量的计算复杂度。尤其在大规模图像检索任务中,大大降低了图像检索的计算效率,并且,所需要的存储硬盘消耗也会比较大。研究了深度特征到二进制码映射的哈希全连接神经网络设计问题,提出了一种包含三层全连接层的哈希神经网络(FCHNN)用于图像特征的低维映射。FCHNN通过标签对的监督学习方式,可将中层特征(如Fisher向量编码)、预训练或微调CNN模型提取的深度特征映射至二进制码。与基于端到端(像素特征到二进制码)的哈希CNN相比,FCHNN具有学习效率高的优势。在存储空间上,当将4096维深度特征编码至64比特存储时,仅需8个字节。在五组遥感图像数据集的检索实验表明,FCHNN可以获得理想的编码效果和检索性能。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP751;TP18
【图文】:
图 1-1 本文的研究技术路线图Fig. 1-1 The technology roadmap of this dissertation通过几年的努力,取得的主要工作与研究创新如下:(1)全连接特征提取与判别性卷积核学习为了提高深度特征的表达能力,提出了基于类别可区分性准则的判别性卷积核(Discriminative Convolution Kernel,DCK)学习方法,并将学习到的卷积核应用于深度特征的线性变换。为了验证判别性卷积核学习的通用性,采用了 CaffeNet 和VGG-VD16 两种预训练 CNN 模型提取全连接层的 4096 维激活向量。首先,对激活向量进行重排列,获得二维形式的图像矩阵。其次,采用滑动窗口策略,从二维图像矩阵中提取不同空间位置上的局部图像块。每个局部图像块的卷积核学习是独立的,学习过程采用了监督方式下的基于类内距离最小、类间距离最大的最优化准则,卷积核的求解过程可采用特征值分解的方式获得。在两个遥感场景图像数据集的分类实验上,验证了DCK 核学习可以有效地提高预训练深度特征的分类性能,尤其是在训练样本数较少的
第 35 页图 2-1 CNN 模型。(a)AlexNet, (b) CaffeNet, (c) VGG-VD16Fig. 2-1 CNN models. (a) AlexNet, (b) CaffeNet, (c) VGG-VD16CaffeNet[72]是 2012 年提出的模型,共包含 5 个卷积层和 3 个全连接层。Caf6000 万个参数和 65 万个神经元, 包括 5 个卷积层和 3 个全连接层,且在两个
从图 2-2 中可以看到,在进行 DCK 学习之前,首先将 ImageNet 数据集训练的 CNN 模型看作特征提取器,比如提取全连接层中的 4096 维激活向量。关于预训练CNN 模型的最后一层分类层,该层是 ImageNet 数据集中的 1000 个类别输出,这是该数据集特有的,而对遥感数据集的特征提取过程是不可用的。因此,从预训练 CNN 模型的全连接层中提取 4096 维激活向量并进行 L2归一化。其次,由于从深度 CNN 模型提取的 4096 维激活向量并不是矩阵表达的形式,而利用 Volterra 理论中学习的卷积核是图像矩阵的形式。因此,需要采用重排列的方式,将激活向量重新排列成图像矩阵的形式,使用固定步长的滑动窗口策略,从图像矩阵中提取小尺寸的局部图像块,然后在每个提取的局部图像块上单独进行 DCK 学习,从而获得卷积滤波器核。第三,在 DCK核的学习过程中,采用类内最小、类间最大的最优化准则,通过对目标函数进行特征值求解的方式,得到一系列的具有判别力的 DCK 核,图 2-2 右边红色箭头所指的内容即为根据可区分性准则学习到的一系列局部图像块的 DCK 核。最后,将卷积核应用于深度特征的线性卷积变换。
本文编号:2779837
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP751;TP18
【图文】:
图 1-1 本文的研究技术路线图Fig. 1-1 The technology roadmap of this dissertation通过几年的努力,取得的主要工作与研究创新如下:(1)全连接特征提取与判别性卷积核学习为了提高深度特征的表达能力,提出了基于类别可区分性准则的判别性卷积核(Discriminative Convolution Kernel,DCK)学习方法,并将学习到的卷积核应用于深度特征的线性变换。为了验证判别性卷积核学习的通用性,采用了 CaffeNet 和VGG-VD16 两种预训练 CNN 模型提取全连接层的 4096 维激活向量。首先,对激活向量进行重排列,获得二维形式的图像矩阵。其次,采用滑动窗口策略,从二维图像矩阵中提取不同空间位置上的局部图像块。每个局部图像块的卷积核学习是独立的,学习过程采用了监督方式下的基于类内距离最小、类间距离最大的最优化准则,卷积核的求解过程可采用特征值分解的方式获得。在两个遥感场景图像数据集的分类实验上,验证了DCK 核学习可以有效地提高预训练深度特征的分类性能,尤其是在训练样本数较少的
第 35 页图 2-1 CNN 模型。(a)AlexNet, (b) CaffeNet, (c) VGG-VD16Fig. 2-1 CNN models. (a) AlexNet, (b) CaffeNet, (c) VGG-VD16CaffeNet[72]是 2012 年提出的模型,共包含 5 个卷积层和 3 个全连接层。Caf6000 万个参数和 65 万个神经元, 包括 5 个卷积层和 3 个全连接层,且在两个
从图 2-2 中可以看到,在进行 DCK 学习之前,首先将 ImageNet 数据集训练的 CNN 模型看作特征提取器,比如提取全连接层中的 4096 维激活向量。关于预训练CNN 模型的最后一层分类层,该层是 ImageNet 数据集中的 1000 个类别输出,这是该数据集特有的,而对遥感数据集的特征提取过程是不可用的。因此,从预训练 CNN 模型的全连接层中提取 4096 维激活向量并进行 L2归一化。其次,由于从深度 CNN 模型提取的 4096 维激活向量并不是矩阵表达的形式,而利用 Volterra 理论中学习的卷积核是图像矩阵的形式。因此,需要采用重排列的方式,将激活向量重新排列成图像矩阵的形式,使用固定步长的滑动窗口策略,从图像矩阵中提取小尺寸的局部图像块,然后在每个提取的局部图像块上单独进行 DCK 学习,从而获得卷积滤波器核。第三,在 DCK核的学习过程中,采用类内最小、类间最大的最优化准则,通过对目标函数进行特征值求解的方式,得到一系列的具有判别力的 DCK 核,图 2-2 右边红色箭头所指的内容即为根据可区分性准则学习到的一系列局部图像块的 DCK 核。最后,将卷积核应用于深度特征的线性卷积变换。
【参考文献】
相关期刊论文 前4条
1 李武军;周志华;;大数据哈希学习:现状与趋势[J];科学通报;2015年Z1期
2 王增茂;杜博;张良培;张乐飞;;基于纹理特征和形态学特征融合的高光谱影像分类法[J];光子学报;2014年08期
3 庄福振;罗平;何清;史忠植;;迁移学习研究进展[J];软件学报;2015年01期
4 朱先强;黄金才;邵振峰;程光权;;一种定义感兴趣局部显著特征的新方法及其在遥感影像检索中的应用[J];武汉大学学报(信息科学版);2013年06期
相关博士学位论文 前3条
1 孟丹;基于深度学习的图像分类方法研究[D];华东师范大学;2017年
2 廖红虹;视觉词袋模型架构下的图像分类算法研究[D];华中科技大学;2014年
3 龙明盛;迁移学习问题与方法研究[D];清华大学;2014年
相关硕士学位论文 前5条
1 王盛;基于标签对的深度哈希学习[D];南京大学;2017年
2 李蕾;基于哈希的图像检索研究[D];北京交通大学;2017年
3 鲁潇潇;图像分类中高阶特征编码方法的研究[D];大连理工大学;2016年
4 谢李鹏;基于局部不变特征融合的图像检索技术研究[D];电子科技大学;2016年
5 仇媛媛;基于视觉显著性的物体检测方法研究[D];上海交通大学;2013年
本文编号:2779837
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2779837.html