基于深度学习的车内人手检测技术的研究
发布时间:2021-01-19 05:46
人手作为人类传递信息的重要媒介之一,在计算机视觉领域得到了广泛的研究。在智能汽车场景中,车内人手检测不仅是车载人机交互的基础,还是分析驾驶员行为、研究车辆驾驶安全的基础。为此,本文研究了基于深度学习的车内人手检测算法。综合评估算法的精度和速度,本文基于高效且快速的单阶段目标检测网络YOLOv2提出了Multi-Scale YOLOv2人手检测算法。该算法主要通过三个模块来提升YOLOv2的人手检测性能:1、多尺度特征提炼模块,用来获得更加精细化的特征,提升网络对低分辨率人手的检测性能;2、通道重要性评估模块,用来自动学习特征通道的重要性并重新分配通道权重,增强特征的表现能力;3、难例惩罚模块,通过在损失函数中增加一项难例损失项来增强网络的判别能力,减少误检。针对基于单阶段目标检测网络的人手检测算法精度不够高的问题,本文将两阶段目标检测网络Faster R-CNN应用于人手检测。我们使用ResNet101作为基础特征提取网络,以提取表现力更好的特征。用可对齐的感兴趣区域池化(ROI Align)代替原始的感兴趣区域池化(ROI Pooling),以解决目标候选框的位置和大小与目标不匹配的...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:硕士
【部分图文】:
车载手势交互在研究车辆驾驶安全时,驾驶员的手不仅可以为我们提供理解驾驶员行为的独
变的建模能力。第 4 章介绍了基于知识蒸馏的 Thin Faster R-CNN 人手检测算法。该算法采用知识蒸馏的方法训练了一个速度快且准确率高的 Thin Faster R-CNN 人手检测网络。其中 Thin Faster R-CNN 网络是将 Faster R-CNN 的基础特征提取网络ResNet101 的卷积通道数减少为原来的 1/4 得到的。该算法选择了第 3 章的 FasterR-CNN 网络作为老师模型来指导 Thin Faster R-CNN 进行蒸馏学习的训练。其中,蒸馏学习包括基于注意力的特征图蒸馏学习和分类蒸馏学习。基于注意力的特征图的蒸馏学习通过计算学生网络与教师网络的特征注意力图之间的L2损失来引导学生网络学到与教师网络相似的特征表示,而分类蒸馏学习通过计算学生网络的分类输出与教师网络的分类输出的交叉熵来引导学生网络学到更强大的分类器。第 5 章是本文的总结与展望,主要对全文的工作及创新点进行了总结,并分析存在的问题,进行相关的研究展望。本文各章之间的逻辑关系如下:
华 中 科 技 大 学 硕 士 学 位 论 文YOLO 的网络结构如图 2-1 所示,包括 6 组卷积和 1 组全连接。输入图片首先经过 6 组卷积进行特征提取,再通过全连接层进行候选框的类别概率和坐标的预测。由于算法将原图划分成S × S个单元格,每个单元格要预测 B 个候选框的 5 个预测值和 C 个类别概率值,所以一张输入图片经过网络前向计算后,在输出层得到维度为S × S × ( × 5 )的特征向量。
【参考文献】:
期刊论文
[1]车载手势识别中基于小波变换和双边滤波的图像去噪方法[J]. 强彦,张晓慧. 北京理工大学学报. 2017(04)
[2]基于视觉的手势识别技术在车载主机上的应用[J]. 陈义,马云林. 电子设计工程. 2016(08)
本文编号:2986448
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:硕士
【部分图文】:
车载手势交互在研究车辆驾驶安全时,驾驶员的手不仅可以为我们提供理解驾驶员行为的独
变的建模能力。第 4 章介绍了基于知识蒸馏的 Thin Faster R-CNN 人手检测算法。该算法采用知识蒸馏的方法训练了一个速度快且准确率高的 Thin Faster R-CNN 人手检测网络。其中 Thin Faster R-CNN 网络是将 Faster R-CNN 的基础特征提取网络ResNet101 的卷积通道数减少为原来的 1/4 得到的。该算法选择了第 3 章的 FasterR-CNN 网络作为老师模型来指导 Thin Faster R-CNN 进行蒸馏学习的训练。其中,蒸馏学习包括基于注意力的特征图蒸馏学习和分类蒸馏学习。基于注意力的特征图的蒸馏学习通过计算学生网络与教师网络的特征注意力图之间的L2损失来引导学生网络学到与教师网络相似的特征表示,而分类蒸馏学习通过计算学生网络的分类输出与教师网络的分类输出的交叉熵来引导学生网络学到更强大的分类器。第 5 章是本文的总结与展望,主要对全文的工作及创新点进行了总结,并分析存在的问题,进行相关的研究展望。本文各章之间的逻辑关系如下:
华 中 科 技 大 学 硕 士 学 位 论 文YOLO 的网络结构如图 2-1 所示,包括 6 组卷积和 1 组全连接。输入图片首先经过 6 组卷积进行特征提取,再通过全连接层进行候选框的类别概率和坐标的预测。由于算法将原图划分成S × S个单元格,每个单元格要预测 B 个候选框的 5 个预测值和 C 个类别概率值,所以一张输入图片经过网络前向计算后,在输出层得到维度为S × S × ( × 5 )的特征向量。
【参考文献】:
期刊论文
[1]车载手势识别中基于小波变换和双边滤波的图像去噪方法[J]. 强彦,张晓慧. 北京理工大学学报. 2017(04)
[2]基于视觉的手势识别技术在车载主机上的应用[J]. 陈义,马云林. 电子设计工程. 2016(08)
本文编号:2986448
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2986448.html