基于深度网络的遥感图像描述方法研究
发布时间:2021-03-28 15:36
图像描述,即产生给定图像的自然语义描述,是使得机器能够理解图像内容的关键任务。遥感图像描述是此领域的一部分。大部分主流的图像描述模型通常由编码器和解码器组成。在编码器部分,使用卷积神经网络提取图像特征。在解码器部分,通常使用循环神经网络及其变体,如长短期记忆网络,输出给定图像的描述性文本。然而,当前的遥感图像描述模型存在过拟合问题,并且没有充分利用图像中的语义信息。为此,本论文基于编码解码架构搭建模型,采用了微调网络架构的Transformer作为新的解码器。并且针对于遥感图像描述模型,设计了基于变分自编码器的两步优化算法,创新点如下:针对遥感图像数据集规模偏小,容易过拟合的问题,本论文提出采用微调网络架构的Transformer作为新的解码器,创新点如下:在原始Transformer的基础上添加了额外的dropout层和残差连接并对提取的特征进行了自适应融合,将编码器编码的低层空间特征和高层语义特征同时传输至解码器进行解码,并将强化学习引入至遥感图像描述模型,进一步提升遥感图像描述模型的性能。另外,针对因遥感图像和自然图像之间的差异而导致的ImageNet上预训练的编码器对遥感图像特...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
经典图像描述模型网络结构
1绪论9Transformer拥有更加强大的序列特征提取能力和更高效的训练效率。2018年,Zhu[37]等人最先尝试把Transformer模型作为自然图像描述模型的解码器,取得了很好的实验结果,但是在遥感图像内容描述上的研究工作还很少。3.在图像描述任务中,训练的目标通常是最小化一个交叉熵损失函数,而模型测试的性能表现却是由各种人为设定的评价指标来决定的。这两者之间的巨大差异将会影响模型最后的性能表现。强化学习被逐渐引入到自然图像描述领域[44,57],并且取得了巨大的成功,但是如何使用强化学习来增强遥感图像描述模型的性能仍少有研究工作涉及。1.4论文的主要贡献和研究动机(MainContributionsandMotivationsoftheThesis)本文的研究内容主要针对上述的当前研究任务的不足,目标是提高模型在遥感图像描述任务上的性能表现。整体的研究框架如图1-2所示。本论文的主要贡献和动机列举如下:1.使用包含了变分自编码器的支路对输入的遥感图像进行还原,以此来对共用的编码器进行正则约束,并且更加高效地提取遥感图像特征。变分自编码器可以视作一个在编码器上添加了正则化的普通自编码器,这样做可以在缓解过拟合问题的同时,保证隐空间能够生成一些新数据的优良特性。遥感图像的数据集大都规模不大,而由此带来的过拟合问题就相对严重,添加包含变分自编码器的支路可以有效缓解这一过拟合问题。与此同时,变分自编码器中的还原输入遥感图像的操作可以使得在图1-2整体研究框架Figure1-2Theoverallresearchframework
2相关技术及理论13卷积层中包含的卷积操作(convolution)是卷积神经网络中最核心的部分。“卷积”的定义来源于数学,因其操作方式与数学中的卷积相类似。在卷积神经网络中,卷积的操作通常被用来提取图像的特征。VGG网络中的卷积核全部为3×3或1×1,并且通过网络层数的加深,逐渐扩大感受野。图2-2演示了在一幅图像上使用3×3的卷积核进行卷积操作的过程。由于经过卷积之后获得图像特征图通道数增多,由此带来的参数量也会更大。为了缓解由此带来计算量问题和过拟合问题,卷积神经网络中采取了池化操作。常见的池化操作包括最大池化(maxpooling)和平均池化(averagepooling)。最大池化即取局部区域中的最大值最为结果,平均池化即取局部区图2-1VGG网络架构[18]Figure2-1NetworkArchitectureofVGG[18]图2-2卷积操作Figure2-2ExamplesofConvolution
【参考文献】:
期刊论文
[1]基于条件随机场的遥感图像语义标注[J]. 杨俊俐,姜志国,周全,张浩鹏,史骏. 航空学报. 2015(09)
[2]基于语义的遥感影像数据检索关键技术研究[J]. 王金杰,周海芳. 计算机与数字工程. 2012(08)
[3]一个基于语义挖掘的遥感影像检索模型[J]. 刘婷婷,李平湘,张良培,陈旭. 武汉大学学报(信息科学版). 2009(06)
硕士论文
[1]基于深度学习的视觉内容描述技术研究[D]. 李林科.电子科技大学 2018
本文编号:3105809
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
经典图像描述模型网络结构
1绪论9Transformer拥有更加强大的序列特征提取能力和更高效的训练效率。2018年,Zhu[37]等人最先尝试把Transformer模型作为自然图像描述模型的解码器,取得了很好的实验结果,但是在遥感图像内容描述上的研究工作还很少。3.在图像描述任务中,训练的目标通常是最小化一个交叉熵损失函数,而模型测试的性能表现却是由各种人为设定的评价指标来决定的。这两者之间的巨大差异将会影响模型最后的性能表现。强化学习被逐渐引入到自然图像描述领域[44,57],并且取得了巨大的成功,但是如何使用强化学习来增强遥感图像描述模型的性能仍少有研究工作涉及。1.4论文的主要贡献和研究动机(MainContributionsandMotivationsoftheThesis)本文的研究内容主要针对上述的当前研究任务的不足,目标是提高模型在遥感图像描述任务上的性能表现。整体的研究框架如图1-2所示。本论文的主要贡献和动机列举如下:1.使用包含了变分自编码器的支路对输入的遥感图像进行还原,以此来对共用的编码器进行正则约束,并且更加高效地提取遥感图像特征。变分自编码器可以视作一个在编码器上添加了正则化的普通自编码器,这样做可以在缓解过拟合问题的同时,保证隐空间能够生成一些新数据的优良特性。遥感图像的数据集大都规模不大,而由此带来的过拟合问题就相对严重,添加包含变分自编码器的支路可以有效缓解这一过拟合问题。与此同时,变分自编码器中的还原输入遥感图像的操作可以使得在图1-2整体研究框架Figure1-2Theoverallresearchframework
2相关技术及理论13卷积层中包含的卷积操作(convolution)是卷积神经网络中最核心的部分。“卷积”的定义来源于数学,因其操作方式与数学中的卷积相类似。在卷积神经网络中,卷积的操作通常被用来提取图像的特征。VGG网络中的卷积核全部为3×3或1×1,并且通过网络层数的加深,逐渐扩大感受野。图2-2演示了在一幅图像上使用3×3的卷积核进行卷积操作的过程。由于经过卷积之后获得图像特征图通道数增多,由此带来的参数量也会更大。为了缓解由此带来计算量问题和过拟合问题,卷积神经网络中采取了池化操作。常见的池化操作包括最大池化(maxpooling)和平均池化(averagepooling)。最大池化即取局部区域中的最大值最为结果,平均池化即取局部区图2-1VGG网络架构[18]Figure2-1NetworkArchitectureofVGG[18]图2-2卷积操作Figure2-2ExamplesofConvolution
【参考文献】:
期刊论文
[1]基于条件随机场的遥感图像语义标注[J]. 杨俊俐,姜志国,周全,张浩鹏,史骏. 航空学报. 2015(09)
[2]基于语义的遥感影像数据检索关键技术研究[J]. 王金杰,周海芳. 计算机与数字工程. 2012(08)
[3]一个基于语义挖掘的遥感影像检索模型[J]. 刘婷婷,李平湘,张良培,陈旭. 武汉大学学报(信息科学版). 2009(06)
硕士论文
[1]基于深度学习的视觉内容描述技术研究[D]. 李林科.电子科技大学 2018
本文编号:3105809
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3105809.html