当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络的改进物体检测方法研究

发布时间:2021-09-02 19:26
  目标检测是计算机视觉的一个基础但又十分重要的任务。现阶段基于深度学习算法尤其是卷积神经网络的目标检测器成为了检测领域的主流。并且和基于传统特征提取算法的检测器相比,无论是在检测准确率还是在推理速度上都有着显著性的提高。在基于卷积的目标检测器中,两阶段检测器Faster R-CNN和单阶段检测器YOLOv2,YOLOv3虽然在性能上相比其他的检测器有着明显的检测准确率或者推理速度的优势。但是,我们仍然可以对其进行一些优化和改进来得到更为高效的检测结果。本文主要有以下三个创新点:首先,针对由于目标检测器Faster R-CNN的区域生成网络产生的表示物体在图片上潜在位置的候选区域的不太准确性,从而制约了其最终检测准确率的进一步提升的问题,提出了基于Faster R-CNN的候选区域纯迭代提炼模型和LSTM迭代提炼模型。纯迭代提炼模型在PASCAL VOC 07训练集上进行网络训练,在测试集上基于VGG-16骨干网络的迭代模型得到的最好m AP比基准高1.1%,基于ZFNet得到的最好m AP比基准高1.5%。LSTM迭代提炼模型也能够较好地提升检测准确率。而且由于LSTM层的加入,使得此模... 

【文章来源】:辽宁科技大学辽宁省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于卷积神经网络的改进物体检测方法研究


FasterR-CNN检测器Fig.2.1FasterR-CNNdetectorFasterR-CNN检测器的检测示意图如图2.1所示

网络结构图,网络结构,卷积


8检测网络的骨干特征提取网络共享卷积层运算,极大地提高了模型在训练和推理阶段的运算速度。FasterR-CNN检测器使用创新性的RPN替代了传统的基于原始像素特征的选择性搜索算法来生成候选区域,使得整个检测模型实现了真正意义上的端到端的训练和测试过程。2.1.1FasterR-CNN网络结构图2.2为基于VGG-16骨干特征提取网络的FasterR-CNN检测器结构示意图。从图中可以看到,对于任意大小的输入图片P×Q,检测网络首先都先将图片尺度缩小或着放大到统一的尺度M×N,然后将固定尺度的图片传入VGG-16网络进行特征提龋VGG-16的整个卷积结构由13个卷积层、13个relu层和4个池化层组成。特征图通过区域生成网络的3×3滑动卷积,生成的正的先验锚框和计算出相应的边界框回归偏移量,从而得到最终的候选区域。ROI池化层则利用候选区域坐标从特征图上提取相应的特征通过全连接层送入最终的分类和回归检测层。图2.2基于VGG-16的FasterR-CNN网络结构Fig.2.2FasterR-CNNnetworkstructurebasedonVGG-162.1.2RPN结构描述基于传统的图片原始的像素特征,或者通过算法手工设计特征描述算子的方法来生成候选区域通常需要花费大量的时间。比如经典的Adaboost算法[43]通过在图像金字塔级别上面采用滑动窗口的方式来生成候选框,FastR-CNN通过基于原始像素特征和纹理特征的选择性搜索方法[44]来生成候选框,这两种方法都需要花费很多的时间才能完成相应的候选区域生成的工作任务,从而极大地增加了检测所需的时间,降低了检测的效率。FasterR-CNN则没有使用基于传统特征的方式来生成候选区域,而是巧妙地设计了基于卷积神经网络的区域生成网络来

网络结构图,网络结构,边界框,损失函数


洌?提高了整体的检测效率。图2.3为FasterR-CNN区域生成网络的结构示意图,从图中可以清楚地看到,RPN内部由两条图片特征流程处理线路组成。图2.3上面的流程通过Softmax分类器对于生成的先验锚框进行正负类别判定。下面的流程用来计算锚框的边界框回归的偏移量。图中Proposal层的作用是根据前面计算得到的正的锚框和相应的边界框的偏移量计算得到最终的候选区域,同时去除尺度太小和超出图片边界的候选区域。区域生成网络在经过了Proposal层的运算之后,其实就大致相当于完成了对于图片中物体潜在位置的大致定位操作。图2.3RPN网络结构Fig.2.3RPNnetworkstructure2.1.3FasterR-CNN损失函数由于FasterR-CNN的区域生成网络和FastR-CNN检测网络共享骨干网络的卷积层,所以区域生成网络用来提取图片特征图的网络和FastR-CNN是一样的。同样,对于训练区域生成网络和FastR-CNN检测网络的损失函数都包括物体类别的损失误差和位置回归的损失误差。区域生成网络训练过程中使用的损失函数为:11({},{})=(,)+(,)iiclassiiiregiiclassiregiLptLpppLttNNλ(2.1)在公式2.1中,i为相应锚框的索引标号,pi为通过Softmax分类器计算后的相应的正锚框的分类为前景的类别概率。p*i为相应的锚框和某个基准框相匹配或者不匹配的概率值。即假设第i个锚框和某个基准框之间的交并比大于0.7,那么该锚框就被判定为正,p*i赋值为1。如果锚框和所有基准框的交并比都小于0.3,那么该锚框就被判定为负,p*i赋值为0。交并比在0.3和0.7之间的锚框即不判定为正也不判定为负,不参与到区域生成网络的训练中。t为通过网络预测的物体边界框,t为预测的物体边界框所对应的物体基准框。从公式2.1可以看到,总的损失函数由类别损失项和回归损失项?

【参考文献】:
期刊论文
[1]基于深度卷积网络的目标检测综述[J]. 吴帅,徐勇,赵东宁.  模式识别与人工智能. 2018(04)
[2]深度学习在目标视觉检测中的应用进展与展望[J]. 张慧,王坤峰,王飞跃.  自动化学报. 2017(08)



本文编号:3379592

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3379592.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bfacc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com