基于深度学习的目标检测研究与实现
发布时间:2021-01-13 08:05
目标检测是计算机视觉中重要的基本问题之一,它的目的主要是从静态图片中定位并检测出特定的目标。目标检测技术将图像处理、语义分割、智能场景和自动控制等技术结合起来,在诸如自动驾驶、医学影像、人机交互、运动跟踪等方面有着广泛的应用。基于传统方法的目标检测算法将特征提取和分类决策独立开来,使用人工提取或设计特征,这在面对复杂场景的时候很难得到理想的效果。自从深度学习概念被Hinton教授提出,研究者们发现深度学习方法有着巨大的性能和速度优势,于是越来越多地被应用至各个领域中去,其中包含目标检测。深度学习和浅层学习的区别主要有两点:一、加深了网络模型深度,形成了更多的隐层节点;二、经过每一层的特征变换,将原本输入至网络的图像从一个量化空间变换到另一个新的量化空间,突出了每层特征的特点,使后续的分类检测更加容易。深度学习不仅对模型的表达能力强,而且能够突出目标在背景中的特性,同时这种方法也有一定的生物学基础。本文分析了基于深度学习的目标检测算法的网络结构和实现思路,从计算复杂度、运算效率、特征提取能力和目标框定位准确性等角度出发,对传统目标检测算法和深度学习目标检测算法进行了深入的研究。在此基础上...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
目标检测结果示例
二部分是用于定位产生的损失。这种方法对于目标数量固定的定位问题比较容易,当数量不定时就不适用了。图2.2 交并比示意图目标定位任务的评估指标通常是交并比(Intersection over Union,IoU),以此值的大小衡量模型最终输出的矩形框与真实矩形框的差异程度,交并比的值等于两个矩形区域的重叠面积和总面积的比值,当此值大于某一设置值,分类器就认为成功定位到了目标。如图 2.2 为交并比概念示意图。特征提取数字图像通常是一张光栅图或像素图,将颜色映射到网格坐标里。一张图片可以看作是一个矩阵,矩阵中的每个元素由代表颜色值的数字组成。提取图像特征就是将矩阵每行连起来变成一个行向量将其获取[45-47]。传统的特征提取方法主要有以下几种:(1)局部二值模式(Local Binary Patterns,LBP)。LBP 是一种简单但非常有效的纹理算子。LBP 算子的基本思想是
3.2 多层卷积特征融合高层特征用于度量语义相似度,底层特征用于度量细粒度相似度,因此高层和底层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量。Faster R-CNN使用最后一层共享卷积层提取特征作为 RPN 网络的输入,这种单一的从高层输出的特征信息没有很好地兼顾图像目标的底层像素信息和语义信息,这意味着 FasterR-CNN 目标检测模型输出的特征会更偏向于语义特征而缺少轮廓特征,这会对小目标会造成一定影响。因此本文利用多层卷积特征融合解决此问题。由图3.2可以看出,VGG-16 拥有 5 段卷积,每一段内有 2-3 个卷积层,同时每段尾部会连接一个最大池化层用来缩小图片尺寸。每段内的卷积核数量一样,越靠后的段的卷积核数量越多:64-128-256-512-512。其中经常出现多个完全一样的 3×3 的卷积层堆叠在一起的情况,这是非常科学的设计,因为这样的卷积核提高了模型的非线性拟合能力,在一定程度上弥补了网络层数较少带来的特征提取能力不足的缺点。因此本文使用的特征提取网络为 VGGNet 系列中的 VGG-16。
【参考文献】:
期刊论文
[1]基于Faster R-CNN深度网络的遥感影像目标识别方法研究[J]. 王金传,谭喜成,王召海,钟燕飞,董华萍,周松涛,成布怡. 地球信息科学学报. 2018(10)
[2]基于全卷积对称网络的目标尺度自适应追踪[J]. 孙晓霞,庞春江. 激光与光电子学进展. 2019(01)
[3]目标检测算法研究综述[J]. 方路平,何杭江,周国民. 计算机工程与应用. 2018(13)
[4]深度学习在目标检测中的应用[J]. 侯海霞. 中国新通信. 2018(10)
[5]时空特征融合深度学习网络人体行为识别方法[J]. 裴晓敏,范慧杰,唐延东. 红外与激光工程. 2018(02)
[6]基于VGGNet和标签分布学习的航拍目标分类方法[J]. 戚银城,赵振兵,杜丽群,乔弘,王磊. 电力建设. 2018(02)
[7]基于深度学习的视频预测研究综述[J]. 莫凌飞,蒋红亮,李煊鹏. 智能系统学报. 2018(01)
[8]基于深度卷积神经网络的飞机识别研究[J]. 唐小佩,杨小冈,刘云峰,任世杰. 电光与控制. 2018(05)
[9]深度学习在目标视觉检测中的应用进展与展望[J]. 张慧,王坤峰,王飞跃. 自动化学报. 2017(08)
[10]深度学习在无人驾驶汽车领域应用的研究进展[J]. 王科俊,赵彦东,邢向磊. 智能系统学报. 2018(01)
硕士论文
[1]基于卷积神经网络的深度学习算法与应用研究[D]. 陈先昌.浙江工商大学 2014
[2]基于深度学习的人脸识别研究[D]. 林妙真.大连理工大学 2013
本文编号:2974536
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
目标检测结果示例
二部分是用于定位产生的损失。这种方法对于目标数量固定的定位问题比较容易,当数量不定时就不适用了。图2.2 交并比示意图目标定位任务的评估指标通常是交并比(Intersection over Union,IoU),以此值的大小衡量模型最终输出的矩形框与真实矩形框的差异程度,交并比的值等于两个矩形区域的重叠面积和总面积的比值,当此值大于某一设置值,分类器就认为成功定位到了目标。如图 2.2 为交并比概念示意图。特征提取数字图像通常是一张光栅图或像素图,将颜色映射到网格坐标里。一张图片可以看作是一个矩阵,矩阵中的每个元素由代表颜色值的数字组成。提取图像特征就是将矩阵每行连起来变成一个行向量将其获取[45-47]。传统的特征提取方法主要有以下几种:(1)局部二值模式(Local Binary Patterns,LBP)。LBP 是一种简单但非常有效的纹理算子。LBP 算子的基本思想是
3.2 多层卷积特征融合高层特征用于度量语义相似度,底层特征用于度量细粒度相似度,因此高层和底层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量。Faster R-CNN使用最后一层共享卷积层提取特征作为 RPN 网络的输入,这种单一的从高层输出的特征信息没有很好地兼顾图像目标的底层像素信息和语义信息,这意味着 FasterR-CNN 目标检测模型输出的特征会更偏向于语义特征而缺少轮廓特征,这会对小目标会造成一定影响。因此本文利用多层卷积特征融合解决此问题。由图3.2可以看出,VGG-16 拥有 5 段卷积,每一段内有 2-3 个卷积层,同时每段尾部会连接一个最大池化层用来缩小图片尺寸。每段内的卷积核数量一样,越靠后的段的卷积核数量越多:64-128-256-512-512。其中经常出现多个完全一样的 3×3 的卷积层堆叠在一起的情况,这是非常科学的设计,因为这样的卷积核提高了模型的非线性拟合能力,在一定程度上弥补了网络层数较少带来的特征提取能力不足的缺点。因此本文使用的特征提取网络为 VGGNet 系列中的 VGG-16。
【参考文献】:
期刊论文
[1]基于Faster R-CNN深度网络的遥感影像目标识别方法研究[J]. 王金传,谭喜成,王召海,钟燕飞,董华萍,周松涛,成布怡. 地球信息科学学报. 2018(10)
[2]基于全卷积对称网络的目标尺度自适应追踪[J]. 孙晓霞,庞春江. 激光与光电子学进展. 2019(01)
[3]目标检测算法研究综述[J]. 方路平,何杭江,周国民. 计算机工程与应用. 2018(13)
[4]深度学习在目标检测中的应用[J]. 侯海霞. 中国新通信. 2018(10)
[5]时空特征融合深度学习网络人体行为识别方法[J]. 裴晓敏,范慧杰,唐延东. 红外与激光工程. 2018(02)
[6]基于VGGNet和标签分布学习的航拍目标分类方法[J]. 戚银城,赵振兵,杜丽群,乔弘,王磊. 电力建设. 2018(02)
[7]基于深度学习的视频预测研究综述[J]. 莫凌飞,蒋红亮,李煊鹏. 智能系统学报. 2018(01)
[8]基于深度卷积神经网络的飞机识别研究[J]. 唐小佩,杨小冈,刘云峰,任世杰. 电光与控制. 2018(05)
[9]深度学习在目标视觉检测中的应用进展与展望[J]. 张慧,王坤峰,王飞跃. 自动化学报. 2017(08)
[10]深度学习在无人驾驶汽车领域应用的研究进展[J]. 王科俊,赵彦东,邢向磊. 智能系统学报. 2018(01)
硕士论文
[1]基于卷积神经网络的深度学习算法与应用研究[D]. 陈先昌.浙江工商大学 2014
[2]基于深度学习的人脸识别研究[D]. 林妙真.大连理工大学 2013
本文编号:2974536
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2974536.html
最近更新
教材专著