基于多尺度语义信息融合的目标检测算法研究
发布时间:2020-12-24 21:39
图像目标检测是计算机视觉领域内的热点课题,它的主要任务是从输入图像中定位感兴趣的目标,然后准确地判断每个感兴趣目标的类别。近年来,随着深度学习技术的火热发展,目标检测技术已经广泛应用于日常生活安全、机器人导航、智能视频监控、交通场景检测及航天航空等领域。特别是卷积神经网络的成功应用,使目标检测的性能取得大幅度的提升,并涌现出大量不同的检测算法和网络模型,从而目标检测技术得到快速的发展。本文对基于深度学习的目标检测算法进行充分调研的基础下,分析了经典的SSD(Single Shot MultiBox Detector)检测方法存在的不足并做出了改进,以下是本文的主要工作:(1)本文首先简要的论述了目标检测的研究背景、意义及其难点,接着对基于深度学习目标检测算法的两大类进行综述,即基于候选区域算法和基于回归算法。对于第一类算法,先介绍了基于区域的卷积神经网络(Region with Convolutional Neural Network,R-CNN)系列算法的发展史,然后从四个维度综述了研究者在RCNN系列算法基础上所做的改进研究:对特征提取网络的改进研究、对感兴趣区域池化层的改进研究、...
【文章来源】:江西理工大学江西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
HyperNet的结构[45]
第二章基于深度学习的目标检测研究综述15图2.5HyperNet的结构[45]2017年Tsung-YiLin等人[30]提出了特征金字塔网络(FeaturePyramidNetwork,FPN),它使用了ResNet101作为特征提取网络,在此基础上构造了一种自顶向下带有横向连接的层次结构,来产生各个尺度的高层语义特征,并对各个尺度的特征进行单独的预测。首先将输入的图像进行深度卷积操作,然后使用上采样方式扩张网络顶端的特征图形成自顶向下的结构,再通过横向连接将上采样的结果和对应相同尺寸的卷积网络特征图进行融合,融合后的特征先进行3×3的卷积操作,消除上采样的混叠效应,再进行单独的预测。FPN将高层特征图与底层特征图相融合,使得融合后的特征图不仅具有较强的语义信息,还具有较丰富的几何信息,有利于提高小目标的检测精度。2018年Bharat等人[46]提出了图像金字塔的尺度归一化方法(ScaleNormalizationforImagePyramids,SNIP)用于提高小目标检测性能。如图2.6所示,他们借鉴了多尺度训练思想,使用图像金字塔网络将图像生成三种不同分辨率的输入图像,高分辨率图像只用于小目标检测,中等分辨率图像只进行中等目标检测,低分辨率图像只进行大目标检测。具体实现是在训练时,预先限定了三个尺度范围,分别对应大、中、小型目标的尺度范围,然后只对尺度在指定范围内的目标候选区域进行反向传播,如在高分辨率图像中,只对在小目标尺度范围内的目标候选框进行回传梯度,忽略其他范围的目标候选框。在此基础上,Bharat等人对输入图像采样策略进行了优化,提出了SNIPER方法[47],有效减少了图像金字塔的计算开销。图2.6SNIP网络结构[46]
分别获取对象的全局信息和上下文信息,然后有效的结合候选区域的局部信息、全局信息和上下文信息进行检测。Zhu等人[49]对CoupleNet算法进一步改进,提出了AttentionCoupleNet算法,该算法设计了一个级联的注意力结构用以感知图像的全局场景,从而生成不知类别的注意力图,再将注意力图编码进网络中以获取目标感知特征,并使用数据集的实例分割标注辅助训练,使得检测器的性能有显著提升。2017年Dai等人[50,51]提出了形变卷积网络(DeformationConvolutionNetwork,DCN),设计了可形变卷积和可形变感兴趣区域池化层(如图2.7所示)。这两种结构的核心思想都是先通过标准卷积给每个采样点学习到一个位置偏移量,然后结合位置偏移量再进行卷积或者池化操作。可形变卷积的感受野不再是一成不变的正方形,而是和物体的实际形状相匹配,旨在解决检测任务中物体形变问题。可形变感兴趣区域池化层为每个划分小块添加一个位置偏移量,使网络学习了更多的空间位置信息,增强了网络对物体的定位能力。图2.7可形变卷积和可形变ROIPooling[50,51]
本文编号:2936353
【文章来源】:江西理工大学江西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
HyperNet的结构[45]
第二章基于深度学习的目标检测研究综述15图2.5HyperNet的结构[45]2017年Tsung-YiLin等人[30]提出了特征金字塔网络(FeaturePyramidNetwork,FPN),它使用了ResNet101作为特征提取网络,在此基础上构造了一种自顶向下带有横向连接的层次结构,来产生各个尺度的高层语义特征,并对各个尺度的特征进行单独的预测。首先将输入的图像进行深度卷积操作,然后使用上采样方式扩张网络顶端的特征图形成自顶向下的结构,再通过横向连接将上采样的结果和对应相同尺寸的卷积网络特征图进行融合,融合后的特征先进行3×3的卷积操作,消除上采样的混叠效应,再进行单独的预测。FPN将高层特征图与底层特征图相融合,使得融合后的特征图不仅具有较强的语义信息,还具有较丰富的几何信息,有利于提高小目标的检测精度。2018年Bharat等人[46]提出了图像金字塔的尺度归一化方法(ScaleNormalizationforImagePyramids,SNIP)用于提高小目标检测性能。如图2.6所示,他们借鉴了多尺度训练思想,使用图像金字塔网络将图像生成三种不同分辨率的输入图像,高分辨率图像只用于小目标检测,中等分辨率图像只进行中等目标检测,低分辨率图像只进行大目标检测。具体实现是在训练时,预先限定了三个尺度范围,分别对应大、中、小型目标的尺度范围,然后只对尺度在指定范围内的目标候选区域进行反向传播,如在高分辨率图像中,只对在小目标尺度范围内的目标候选框进行回传梯度,忽略其他范围的目标候选框。在此基础上,Bharat等人对输入图像采样策略进行了优化,提出了SNIPER方法[47],有效减少了图像金字塔的计算开销。图2.6SNIP网络结构[46]
分别获取对象的全局信息和上下文信息,然后有效的结合候选区域的局部信息、全局信息和上下文信息进行检测。Zhu等人[49]对CoupleNet算法进一步改进,提出了AttentionCoupleNet算法,该算法设计了一个级联的注意力结构用以感知图像的全局场景,从而生成不知类别的注意力图,再将注意力图编码进网络中以获取目标感知特征,并使用数据集的实例分割标注辅助训练,使得检测器的性能有显著提升。2017年Dai等人[50,51]提出了形变卷积网络(DeformationConvolutionNetwork,DCN),设计了可形变卷积和可形变感兴趣区域池化层(如图2.7所示)。这两种结构的核心思想都是先通过标准卷积给每个采样点学习到一个位置偏移量,然后结合位置偏移量再进行卷积或者池化操作。可形变卷积的感受野不再是一成不变的正方形,而是和物体的实际形状相匹配,旨在解决检测任务中物体形变问题。可形变感兴趣区域池化层为每个划分小块添加一个位置偏移量,使网络学习了更多的空间位置信息,增强了网络对物体的定位能力。图2.7可形变卷积和可形变ROIPooling[50,51]
本文编号:2936353
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2936353.html