基于单次多重目标检测器的目标检测算法研究
发布时间:2021-02-25 17:21
近年来,随着计算机软硬件技术的发展,深度学习、卷积神经网络技术在计算机视觉领域掀起了一股浪潮。卷积神经网络的出现,使得图像中物体特征设计的难题得到了解决,越来越多的研究将卷积神经网络应用在计算机视觉领域。目标检测作为计算机视觉领域内的基础任务,一直是热门研究的课题。国内外学者提出了多种以卷积神经网络为基础的目标检测算法并加以改进,例如R-CNN,Fast R-CNN,Faster R-CNN,RFCN,Mask RCNN,Yolo系列,SSD等目标检测算法。单次多重目标检测器(Single Shot Multi Box Detector,SSD)是一种以深度卷积神经网络为基础的一步法检测器,其优点是检测速度快,且精度可达到与两步法检测器相当的程度。然而,SSD目标检测算法也依然存在着对小目标物体检测效果不好、特征提取方式单一、难以在普通机器上对目标进行实时检测等问题,这些问题限制了SSD目标检测算法的性能。因此,本文针对SSD目标检测算法中的不足之处,提出改进方案,本文主要工作内容如下:1.针对SSD目标检测算法的特征提取方式单一的问题,本文提出了一种基于多尺度卷积结构的SSD目标检测...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
简单的人工神经网络
东南大学硕士学位论文图1.2图像卷积的操作要数ZFNet[18],VGGNet[19],GoogleNet[20]和ResNet[21]这四种。ZFNet对AlexNet的改进首先在第一层的卷积核尺寸从11×11降为7×7,同时将卷积时的步长从4降至2。这样使中间的卷积层扩张从而可以捕捉到更多的信息。VGGNet将网络的深度扩展到了19层,并且在每个卷积层使用了3x3这种小尺寸的卷积核。结果证明深度对网络性能有着重要影响。GoogleNet同时增加了网络的宽度与深度,并且相比于更窄更浅的网络,其在没有明显增多的计算量的情况下使网络性能明显增强。综上所述,卷积神经网络的层数变深是一个发展方向,ILSVRC2015冠军ResNet层数是是VGGNet的8倍多,AlexNet的20多倍,ResNet与一般意义上的卷积神经网络最大的区别在于有很多的旁路将输入直接连接到后面的层,一定程度上解决了层数过深时难以训练的问题。通过加深神经网络,算法的非线性性获得提升,算法可以逼近目标函数的近似结构,同时进行更好的特征描述。但是,这样做的缺点是同时增加了网络结构的整体复杂程度,不仅仅算法的运行速度得到限制,而且网络变得难以训练和优化,容易发生过拟合的情况,反向传播的过程中容易梯度消失。研究人员针对这些问题也展开了很多研究。CNN的基本组成成分是比较一致的。以分类数字的LeNet-5为例,这个卷积神经网络含有三种类型的神经网络层:卷积层(Convolutionslayer):学习输入数据的特征表示,卷积层由很多的卷积核(convolutionalkernel)组成,卷积核用来与上一层图像进行计算并得到不同的特征图(featuremap)。卷积层后有时会加入激活函数(activationfunction),其给CNN卷积神经网络引入了非线性,常用的有sigmoid、tanh、ReLU函数。池化层(Poolinglayer):降低卷积层输出的特征向量,进行下采样?
第一章绪论分类问题,也可以有效的解决回归问题。卷积层、池化层和激活函数层的作用是将原始数据进行特征抽取,特征压缩,特征映射等,与它们不同之处是全连接层则起到将以上层获得的“分布式特征表示”映射到样本标记空间的作用。CNN在计算机视觉任务上的应用多种多样,其中包括图像分类、物体检测、物体追踪、姿态估计、文本检测、视觉显著检测、行为识别等。本文研究的就是CNN在目标检测上的应用。1.2.3深度学习方法的目标检测近年来,卷积神经网络在计算机视觉领域有着越来越多的应用,其中最大的一个原因是,如何人工对图像数据的特征进行设计,即有效的对图像进行描述,一直是计算机视觉领域的关键问题,而卷积神经网络相对与传统的机器学习方案能够使图像能更生动地在计算机中进行表达和表征,这也意味着人们可以把图像或者视频中复杂物体特征的设计交给计算机来实现。在基于卷积神经网络的图像相关算法中,深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)在图像分类中的准确率创下了新的记录。此外,GPU计算资源的扩展,以及大规模数据集可用性的提升,使得DCNN成功地应用于图像分类,进而转移到目标检测,接着提出了一系列基于深度卷积神经网络的目标检测方法。基于深度卷积神经网络的目标检测算法分类框架图如图1.3所示。图1.3深度学习目标检测框架图整体而言,这些检测器可以分为两大主要类别:两步法(two-stage)目标检测框架,包含一个用于区域提议(RegionProposal)的预处理步骤,将检测提议分开,使得整体流程是两级式的。一步法(one-stage)目标检测框架,即无区域提议的框架,这是一种单独提出的方法,不会将检测提议分开,使得整个流程是单级式的。5
【参考文献】:
期刊论文
[1]基于双线性插值的图像缩放算法的研究与实现[J]. 王森,杨克俭. 自动化技术与应用. 2008(07)
本文编号:3051302
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
简单的人工神经网络
东南大学硕士学位论文图1.2图像卷积的操作要数ZFNet[18],VGGNet[19],GoogleNet[20]和ResNet[21]这四种。ZFNet对AlexNet的改进首先在第一层的卷积核尺寸从11×11降为7×7,同时将卷积时的步长从4降至2。这样使中间的卷积层扩张从而可以捕捉到更多的信息。VGGNet将网络的深度扩展到了19层,并且在每个卷积层使用了3x3这种小尺寸的卷积核。结果证明深度对网络性能有着重要影响。GoogleNet同时增加了网络的宽度与深度,并且相比于更窄更浅的网络,其在没有明显增多的计算量的情况下使网络性能明显增强。综上所述,卷积神经网络的层数变深是一个发展方向,ILSVRC2015冠军ResNet层数是是VGGNet的8倍多,AlexNet的20多倍,ResNet与一般意义上的卷积神经网络最大的区别在于有很多的旁路将输入直接连接到后面的层,一定程度上解决了层数过深时难以训练的问题。通过加深神经网络,算法的非线性性获得提升,算法可以逼近目标函数的近似结构,同时进行更好的特征描述。但是,这样做的缺点是同时增加了网络结构的整体复杂程度,不仅仅算法的运行速度得到限制,而且网络变得难以训练和优化,容易发生过拟合的情况,反向传播的过程中容易梯度消失。研究人员针对这些问题也展开了很多研究。CNN的基本组成成分是比较一致的。以分类数字的LeNet-5为例,这个卷积神经网络含有三种类型的神经网络层:卷积层(Convolutionslayer):学习输入数据的特征表示,卷积层由很多的卷积核(convolutionalkernel)组成,卷积核用来与上一层图像进行计算并得到不同的特征图(featuremap)。卷积层后有时会加入激活函数(activationfunction),其给CNN卷积神经网络引入了非线性,常用的有sigmoid、tanh、ReLU函数。池化层(Poolinglayer):降低卷积层输出的特征向量,进行下采样?
第一章绪论分类问题,也可以有效的解决回归问题。卷积层、池化层和激活函数层的作用是将原始数据进行特征抽取,特征压缩,特征映射等,与它们不同之处是全连接层则起到将以上层获得的“分布式特征表示”映射到样本标记空间的作用。CNN在计算机视觉任务上的应用多种多样,其中包括图像分类、物体检测、物体追踪、姿态估计、文本检测、视觉显著检测、行为识别等。本文研究的就是CNN在目标检测上的应用。1.2.3深度学习方法的目标检测近年来,卷积神经网络在计算机视觉领域有着越来越多的应用,其中最大的一个原因是,如何人工对图像数据的特征进行设计,即有效的对图像进行描述,一直是计算机视觉领域的关键问题,而卷积神经网络相对与传统的机器学习方案能够使图像能更生动地在计算机中进行表达和表征,这也意味着人们可以把图像或者视频中复杂物体特征的设计交给计算机来实现。在基于卷积神经网络的图像相关算法中,深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)在图像分类中的准确率创下了新的记录。此外,GPU计算资源的扩展,以及大规模数据集可用性的提升,使得DCNN成功地应用于图像分类,进而转移到目标检测,接着提出了一系列基于深度卷积神经网络的目标检测方法。基于深度卷积神经网络的目标检测算法分类框架图如图1.3所示。图1.3深度学习目标检测框架图整体而言,这些检测器可以分为两大主要类别:两步法(two-stage)目标检测框架,包含一个用于区域提议(RegionProposal)的预处理步骤,将检测提议分开,使得整体流程是两级式的。一步法(one-stage)目标检测框架,即无区域提议的框架,这是一种单独提出的方法,不会将检测提议分开,使得整个流程是单级式的。5
【参考文献】:
期刊论文
[1]基于双线性插值的图像缩放算法的研究与实现[J]. 王森,杨克俭. 自动化技术与应用. 2008(07)
本文编号:3051302
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3051302.html
最近更新
教材专著