子类敏感卷积神经网络研究:目标检测与姿态估计
发布时间:2021-01-15 10:39
目标检测是计算机视觉中的重要基础研究课题之一。其应用领域十分广泛,包括智能安防、智能家居、智能交通、医学图像等。随着近几年深度学习的飞速发展,目标检测的性能已经取得了重大的突破,在众多公开数据集上超越了传统方法。姿态估计也是基础课题之一,特别是头部姿态估计,可以应用在三维人脸建模、人机交互协作、虚拟现实等领域。自动驾驶技术的发展更离不开上述两个技术:行人、车辆检测、行人行走路线预测等。传统的目标检测是利用滑动窗口进行区域选择,该策略没有利用先验知识,导致时间复杂度很高,产生许多冗余窗口;其手工设计的特征对于目标的变化不够鲁棒。基于卷积神经网络的方法很好的解决了上述两个问题。但是现有技术在一些常用数据集上却没有很好的表现,主要原因在于对于遮挡、截断等复杂情况下的目标检测不够精准。同时,具有较高精度的基于区域提名的方法一般速度都很慢。本文提出了一种利用子类信息的卷积神经网络的精确快速的目标检测方法,在保证检测精度的同时,提升原有检测方法的速度。其速度和精度在多个数据集上达到了很好的平衡。头部姿态估计研究如何从图像推断头部朝向的问题,即求出俯仰角、偏航角、翻滚角三个姿态角。本文利用子类信息,...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
–2mlp卷积层和一般卷积层的比较
包括 5011 张训练集图片和 4952 张测试集图片。总共有 20 个类别,各类别的统计数据如表3–4所示,其中第一排为 KITTI 数据集中的图片,第二排为 PascalVOC 2007 数据集中的图片。两个数据集的示例图片如图3–9所示,其中第一排和第二排分别为 KITTI 和 Pascal VOC 2007 数据集示例。表 3–4 Pascal VOC 2007 数据集统计数据Table 3–4 Statistics on the Pascal VOC 2007物体图像数 飞机 单车 鸟 船 瓶子 公车 汽车 猫 椅子 牛 餐桌 狗 马 摩托车 人 盆栽 绵羊 沙发 火车 电视训练集 238 243 330 181 244 186 713 337 445 141 200 421 287 245 2008 245 96 229 261 256验证集 204 239 282 172 212 174 721 322 417 127 190 418 274 222 2007 224 97 223 259 229总共 442 482 612 353 456 360 1434 659 862 268 390 839 561 467 4015 469 193 452 520 4852) 评价指标实验使用平均精度(Average Precision, AP)[69]作为评价指标,输出检测到的物体类别同时给出置信度,并根据分数计算各类别的平均精度。该指标计算的是召回率和准确率曲线下的面积。在 KITTI 数据集上,对于车辆、行人和骑行者的覆盖率阈值分别为 70%、50%、50%,在 Pascal VOC 2007 数据集上所有类的覆盖率阈值均为 50%
的混合模型共享部件模板。据此可以只用低复杂度的模型对大量的视角建模。最后,所有的模型参数,包括部件模板、弹性形变模式、基于视角的拓扑,都能有区别的在最大间隔框架上训练。图4–2为利用混合模型来对由视角产生的拓扑形变进行建模的示意图。4.2 人脸检测相关工作作为人脸分析的一个基本问题,人脸检测已经被研究了很多年。在众多工作中,主要存在两类方法:基于刚性模板的方法和基于可形变部件模型(DPM)[87]的— 50 —
【参考文献】:
期刊论文
[1]图像物体分类与检测算法综述[J]. 黄凯奇,任伟强,谭铁牛. 计算机学报. 2014(06)
本文编号:2978754
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
–2mlp卷积层和一般卷积层的比较
包括 5011 张训练集图片和 4952 张测试集图片。总共有 20 个类别,各类别的统计数据如表3–4所示,其中第一排为 KITTI 数据集中的图片,第二排为 PascalVOC 2007 数据集中的图片。两个数据集的示例图片如图3–9所示,其中第一排和第二排分别为 KITTI 和 Pascal VOC 2007 数据集示例。表 3–4 Pascal VOC 2007 数据集统计数据Table 3–4 Statistics on the Pascal VOC 2007物体图像数 飞机 单车 鸟 船 瓶子 公车 汽车 猫 椅子 牛 餐桌 狗 马 摩托车 人 盆栽 绵羊 沙发 火车 电视训练集 238 243 330 181 244 186 713 337 445 141 200 421 287 245 2008 245 96 229 261 256验证集 204 239 282 172 212 174 721 322 417 127 190 418 274 222 2007 224 97 223 259 229总共 442 482 612 353 456 360 1434 659 862 268 390 839 561 467 4015 469 193 452 520 4852) 评价指标实验使用平均精度(Average Precision, AP)[69]作为评价指标,输出检测到的物体类别同时给出置信度,并根据分数计算各类别的平均精度。该指标计算的是召回率和准确率曲线下的面积。在 KITTI 数据集上,对于车辆、行人和骑行者的覆盖率阈值分别为 70%、50%、50%,在 Pascal VOC 2007 数据集上所有类的覆盖率阈值均为 50%
的混合模型共享部件模板。据此可以只用低复杂度的模型对大量的视角建模。最后,所有的模型参数,包括部件模板、弹性形变模式、基于视角的拓扑,都能有区别的在最大间隔框架上训练。图4–2为利用混合模型来对由视角产生的拓扑形变进行建模的示意图。4.2 人脸检测相关工作作为人脸分析的一个基本问题,人脸检测已经被研究了很多年。在众多工作中,主要存在两类方法:基于刚性模板的方法和基于可形变部件模型(DPM)[87]的— 50 —
【参考文献】:
期刊论文
[1]图像物体分类与检测算法综述[J]. 黄凯奇,任伟强,谭铁牛. 计算机学报. 2014(06)
本文编号:2978754
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2978754.html