基于深度学习的道路车辆目标检测方法研究
发布时间:2021-07-10 16:31
近年来,人工智能技术正在以高速发展的趋势,渗透于我们生活的方方面面,从无人驾驶到刷脸线上支付,从视频处理到语音处理,随处可见的都是人工智能的应用。尤其现在随着大众生活水平的提高,人们对产品的便捷要求、质量要求、舒适度要求以及安全性要求也越来越高,这一点在无人驾驶智能汽车上表现的尤其明显。而目前对无人驾驶汽车的最大的现实需求就是使其能够快速有效安全的感知道路上的行使车辆,因此对基于视觉的道路车辆感知方法进行研究是很有现实意义和作用的,而在基于视觉的道路感知方法研究中,目标检测算法占据着极其重要的位置,但在传统的道路车辆检测方法中,都是2D目标检测,但在实际的环境下,道路上的车辆都是呈现3维立体形态的,仅仅使用2D目标检测,已经无法满足无人驾驶技术的快速发展,并且2D目标检测的在检测精度上的表现也不如3D目标检测。在3D目标车辆检测中,很多前沿的研究者们都是结合深度学习网络以及雷达点云数据,因为深度学习网络具有很强的自学习性和优秀的鲁棒性,而雷达点云数据则能很好的提供目标的深度信息,有助于目标的回归。然而由于雷达点云数据存在这稀疏性和不规则性的缺点,使得在3D目标检测中仅仅使用雷达点云数据...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
无人驾驶环境感知框架
电子科技大学硕士学位论文6目前Apollo已经开源,以其为例,其中使用的YOLO3D[35],场景中的目标物体是通过一个多任务的网络进行检测的。如ShuranSong等设计的DeepSlidingShapes[36]模型,该模型是一种3D的卷积模型,如下图1-2所示,其网络的输入数据包含了两个部分,一个部分是2D的RGB图像,另外一个是与该图像对应的景深图,从图中可知该模型是利用了一种3D滑动窗口的方式,来对目标实现3D目标检测,得到我们需要的3D检测框,是一种高效的3D目标检测算法。如在CVPR2017上Momenta提出的DeepMANTA[37],该方法预测目标车辆特定部件的三维尺寸是通过使用卷积神经网络实现的,然后从已有的三维模型库中匹配到最为相似的模型,最后是通过模型中的3D关键点和通过在图像中被检测出的2D关键点,来进行匹配得到目标车辆在3D空间中的姿态,匹配时用到的匹配方式为PnP匹配。图1-2网络模型(3)只使用双目相机作为数据输入尽管我们可以使用单目相机就可以达到3D目标检测的目的,但其检测精度的确很难满足无人驾驶的需求,而双目相机因为其具有更丰富的信息,使用双目相机进行3D目标检测可以达到更好的检测效果。而且采用双目相机进行目标深度信息提取的时候,不会回到多尺度问题的影响。双目数据的采集只需要使用双目相机就可以获得,并且使用基于双目数据的3D目标检测相对于基于激光雷达3D目标检测,在方法上更加容易实现。如香港科技大学提出的StereoR-CNN[38],该算法于2019年发布在计算机视觉领域顶级会议CVPR上,如图1-3所示,该方法是
ereoR-CNN与2D的FasterR-CNN不同的是,该方法在FasterR-CNN的基础上额外增加了输入,其第一步是在双目图像中都生成目标候选区域。然后使用不同的分支来对视角、关键点和对象的维度进行预测,其目的是将从左右图像中得到的2D检测结果和预测得到的关键点相结合,来大概的得到目标的3D候选框区域,如图所1-3示,后续还要细化3DBoundingbox,细化的方法是将左右图像对应的感兴趣区域(RegionofInterest,简称ROI)通过光度对准原则进行对准矫正。该方法在性能上与其他比较主流的基于双目的3D目标检测算法相比,具有很大的优势。图1-3网络结构示意图(4)将RGB图像和雷达点云数据联合作为输入如AVOD[39],AVOD算法的输入数据包括两部分,第一部分为RGB图像,第二部分为与该RGB图像对应的激光雷达点云的BEV(BirdEyeView),然后该算法使用FPN网络对输入的数据进行处理,得到其全分辨的特征图,然后将BEV图像和RGB图像得到的特征图对应的区域进行融合来提取3D候选框,然后再利用得到的3D候选框进行3D目标检测。如MV3D[40],该算法的数据包括了3部分,处了AVOD中RGB图像和对应的点云的鸟瞰图图像之外,还包括对应的点云的前视图图像,首先利用点云的鸟瞰图通过卷积层得到其特征图,然后使用该特征图得到粗略的3D候选框,然后将粗略得到的3D候选框投影在RGB图像、鸟瞰图图像和前视图图像得到的特征图上,得到各视图下ROI区域特征,最后将三个ROI区域特征进行融合,得到融合后的特征图,最后通过该特征图得到最后精细化的3D检测框。综上所述,目标检测作为基于视觉的道路车辆感知研究方法中的主要组成技术,已经得到了越来越多的广泛关注。由于实际情况下,道路上的车辆是以立体的形式被感知的,所以对基于雷达数据或者图像数据提供景深信息来进行3D目标?
【参考文献】:
期刊论文
[1]人工智能综述[J]. 李玉环. 科技创新导报. 2016(16)
[2]从ADAS系统产业发展看未来无人驾驶汽车技术前景[J]. 陈思宇,乌伟民,童杰,姜海涛,孙志涛. 黑龙江交通科技. 2015(11)
[3]无人驾驶技术研究及展望[J]. 贾祝广,孙效玉,王斌,张维国. 矿业装备. 2014(05)
[4]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
本文编号:3276273
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
无人驾驶环境感知框架
电子科技大学硕士学位论文6目前Apollo已经开源,以其为例,其中使用的YOLO3D[35],场景中的目标物体是通过一个多任务的网络进行检测的。如ShuranSong等设计的DeepSlidingShapes[36]模型,该模型是一种3D的卷积模型,如下图1-2所示,其网络的输入数据包含了两个部分,一个部分是2D的RGB图像,另外一个是与该图像对应的景深图,从图中可知该模型是利用了一种3D滑动窗口的方式,来对目标实现3D目标检测,得到我们需要的3D检测框,是一种高效的3D目标检测算法。如在CVPR2017上Momenta提出的DeepMANTA[37],该方法预测目标车辆特定部件的三维尺寸是通过使用卷积神经网络实现的,然后从已有的三维模型库中匹配到最为相似的模型,最后是通过模型中的3D关键点和通过在图像中被检测出的2D关键点,来进行匹配得到目标车辆在3D空间中的姿态,匹配时用到的匹配方式为PnP匹配。图1-2网络模型(3)只使用双目相机作为数据输入尽管我们可以使用单目相机就可以达到3D目标检测的目的,但其检测精度的确很难满足无人驾驶的需求,而双目相机因为其具有更丰富的信息,使用双目相机进行3D目标检测可以达到更好的检测效果。而且采用双目相机进行目标深度信息提取的时候,不会回到多尺度问题的影响。双目数据的采集只需要使用双目相机就可以获得,并且使用基于双目数据的3D目标检测相对于基于激光雷达3D目标检测,在方法上更加容易实现。如香港科技大学提出的StereoR-CNN[38],该算法于2019年发布在计算机视觉领域顶级会议CVPR上,如图1-3所示,该方法是
ereoR-CNN与2D的FasterR-CNN不同的是,该方法在FasterR-CNN的基础上额外增加了输入,其第一步是在双目图像中都生成目标候选区域。然后使用不同的分支来对视角、关键点和对象的维度进行预测,其目的是将从左右图像中得到的2D检测结果和预测得到的关键点相结合,来大概的得到目标的3D候选框区域,如图所1-3示,后续还要细化3DBoundingbox,细化的方法是将左右图像对应的感兴趣区域(RegionofInterest,简称ROI)通过光度对准原则进行对准矫正。该方法在性能上与其他比较主流的基于双目的3D目标检测算法相比,具有很大的优势。图1-3网络结构示意图(4)将RGB图像和雷达点云数据联合作为输入如AVOD[39],AVOD算法的输入数据包括两部分,第一部分为RGB图像,第二部分为与该RGB图像对应的激光雷达点云的BEV(BirdEyeView),然后该算法使用FPN网络对输入的数据进行处理,得到其全分辨的特征图,然后将BEV图像和RGB图像得到的特征图对应的区域进行融合来提取3D候选框,然后再利用得到的3D候选框进行3D目标检测。如MV3D[40],该算法的数据包括了3部分,处了AVOD中RGB图像和对应的点云的鸟瞰图图像之外,还包括对应的点云的前视图图像,首先利用点云的鸟瞰图通过卷积层得到其特征图,然后使用该特征图得到粗略的3D候选框,然后将粗略得到的3D候选框投影在RGB图像、鸟瞰图图像和前视图图像得到的特征图上,得到各视图下ROI区域特征,最后将三个ROI区域特征进行融合,得到融合后的特征图,最后通过该特征图得到最后精细化的3D检测框。综上所述,目标检测作为基于视觉的道路车辆感知研究方法中的主要组成技术,已经得到了越来越多的广泛关注。由于实际情况下,道路上的车辆是以立体的形式被感知的,所以对基于雷达数据或者图像数据提供景深信息来进行3D目标?
【参考文献】:
期刊论文
[1]人工智能综述[J]. 李玉环. 科技创新导报. 2016(16)
[2]从ADAS系统产业发展看未来无人驾驶汽车技术前景[J]. 陈思宇,乌伟民,童杰,姜海涛,孙志涛. 黑龙江交通科技. 2015(11)
[3]无人驾驶技术研究及展望[J]. 贾祝广,孙效玉,王斌,张维国. 矿业装备. 2014(05)
[4]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
本文编号:3276273
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3276273.html