基于深度学习的斑马线行人检测与行为分析算法研究
发布时间:2021-03-18 21:14
在城市混合交通中,由于城市机动化水平的快速发展,汽车占据了其中的主要地位,而行人在其中的弱势地位日益加重。由于行人穿越道路一般在斑马线区域进行,斑马线区域常常成为人与车辆交互最频繁的区域。而人在斑马线区域的位置、通行方式成为对区域交通安全判断的关键因素。因此,本文从基于视频监控的斑马线行人检测与行为分析两方面入手,对相应的基于深度学习的智能算法展开研究。论文主要工作包括:(1)提出一种专门用于目标检测网络的骨干网络,将其应用在一阶段目标检测网络SSD上用于解决斑马线行人检测问题。首先,对基于深度学习的一阶段目标检测算法SSD进行了深入分析。然后,对检测网络所使用的骨干网络进行了探讨,对现有骨干网络DarkNet-53进行初步改进,获得初步改进网络DarkNet-60。接着,提出了一种用于增强网络感受野的网络结构Dense RFB(receptive field block),并将该结构加入初步改进的骨干网络获得检测专用骨干网络DRFNet(dense receptive field network),最后,将骨干网络DRFNet用于SSD,提升了SSD对斑马线行人的检测性能。(2)提出...
【文章来源】:浙江工业大学浙江省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
网络感受野示意图
基于深度学习的斑马线行人检测与行为分析算法研究29目标的检测效果优于YOLOv3(608×608)(18.7%vs18.3%,+0.4%APs),并且在速度上仍然能保持实时性。2.3.3斑马线行人检测数据集实验结果与分析图2-11多种斑马线监控场景Figure2-11Thevariouscrosswalksurveillancescenarios本文构建了斑马线行人检测数据集,图片总数为7200,通过对多个场景(如所图2-11所示)不同时段的斑马线监控视频(分辨率1920×1080,25Hz)进行稀疏采样得到。对于每一张图片,采用人工标注的方式添加标签。通过3:1的比例进行数据集划分,其中训练集包含5400张图片,标注框数量为14787个,测试集包含1800张图片,标注框数量为4635个。表2-10展示了数据集直观的统计数据。表2-10斑马线行人检测数据集概况Table2-10Thestatisticsofcrosswalkpedestriandetectiondataset训练集测试集总数图片数量540018007200标注框数量14687463519322分辨率--1920×1080使用基于VGG-16的SSD以及基于DRFNet的SSD在训练集上进行训练,输入图像分辨率设置为512×512,batchsize设置为32,训练epoch设置为150,初始学习率为0.004,同样采用“warmup”学习率初始化策略,并使用余弦学习速率退火算法。实验结果如表2-11所示,通过DRFNet的使用有效地提升了SSD在斑马线行
缦挛侍猓海?)由于算法采用了多尺度检测方法,其与先验方法结合起来后,使得网络的超参数大大增加,影响了算法在不同场景下的鲁棒性。尽管可以通过手工调整先验框的超参数,但是获得其中的最优解或次优解需要大量的实验。(2)算法需要将先验框的值与网络输出结果结合起来进行解码,而大量的锚框的解码过程对算法检测速度的影响不可忽视。因此,为了避免以上的问题,本章节采用了无锚框的目标检测算法CenterNet[78],并对其进行改进,使得在保证检测速度的情况下,获取更好的检测精度。3.2无锚框检测算法CenterNet图3-1CenterNet算法示意图(ObjectsasPoints)Figure3-1TheschematicdiagramofCenterNet(ObjectsasPoints)如图3-1所示,CenterNet目标检测算法不再将目标的边框获取作为一个整体问题,而是将其转换成对目标中心点的预测分类问题,以及基于各个目标的中心点对应的边框回归问题。这样的思路使得该算法不使用先验框,而是直接基于网络特征图进行检测结果的预测,从而避免了检测结果解码过程中带来的速度损失以及繁琐的先验框超参数设置。下面将对CenterNet算法进行介绍。3.2.1网络结构CenterNet包括网络包括三个部分,分别为编码网络(encodernetwork),解码网络(decodernetwork)以及检测子网络(detectionsub-networks),如图3-2所示:
【参考文献】:
期刊论文
[1]面向智能监控的行为识别[J]. 马钰锡,谭励,董旭,于重重. 中国图象图形学报. 2019(02)
[2]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵. 自动化学报. 2016(06)
本文编号:3088941
【文章来源】:浙江工业大学浙江省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
网络感受野示意图
基于深度学习的斑马线行人检测与行为分析算法研究29目标的检测效果优于YOLOv3(608×608)(18.7%vs18.3%,+0.4%APs),并且在速度上仍然能保持实时性。2.3.3斑马线行人检测数据集实验结果与分析图2-11多种斑马线监控场景Figure2-11Thevariouscrosswalksurveillancescenarios本文构建了斑马线行人检测数据集,图片总数为7200,通过对多个场景(如所图2-11所示)不同时段的斑马线监控视频(分辨率1920×1080,25Hz)进行稀疏采样得到。对于每一张图片,采用人工标注的方式添加标签。通过3:1的比例进行数据集划分,其中训练集包含5400张图片,标注框数量为14787个,测试集包含1800张图片,标注框数量为4635个。表2-10展示了数据集直观的统计数据。表2-10斑马线行人检测数据集概况Table2-10Thestatisticsofcrosswalkpedestriandetectiondataset训练集测试集总数图片数量540018007200标注框数量14687463519322分辨率--1920×1080使用基于VGG-16的SSD以及基于DRFNet的SSD在训练集上进行训练,输入图像分辨率设置为512×512,batchsize设置为32,训练epoch设置为150,初始学习率为0.004,同样采用“warmup”学习率初始化策略,并使用余弦学习速率退火算法。实验结果如表2-11所示,通过DRFNet的使用有效地提升了SSD在斑马线行
缦挛侍猓海?)由于算法采用了多尺度检测方法,其与先验方法结合起来后,使得网络的超参数大大增加,影响了算法在不同场景下的鲁棒性。尽管可以通过手工调整先验框的超参数,但是获得其中的最优解或次优解需要大量的实验。(2)算法需要将先验框的值与网络输出结果结合起来进行解码,而大量的锚框的解码过程对算法检测速度的影响不可忽视。因此,为了避免以上的问题,本章节采用了无锚框的目标检测算法CenterNet[78],并对其进行改进,使得在保证检测速度的情况下,获取更好的检测精度。3.2无锚框检测算法CenterNet图3-1CenterNet算法示意图(ObjectsasPoints)Figure3-1TheschematicdiagramofCenterNet(ObjectsasPoints)如图3-1所示,CenterNet目标检测算法不再将目标的边框获取作为一个整体问题,而是将其转换成对目标中心点的预测分类问题,以及基于各个目标的中心点对应的边框回归问题。这样的思路使得该算法不使用先验框,而是直接基于网络特征图进行检测结果的预测,从而避免了检测结果解码过程中带来的速度损失以及繁琐的先验框超参数设置。下面将对CenterNet算法进行介绍。3.2.1网络结构CenterNet包括网络包括三个部分,分别为编码网络(encodernetwork),解码网络(decodernetwork)以及检测子网络(detectionsub-networks),如图3-2所示:
【参考文献】:
期刊论文
[1]面向智能监控的行为识别[J]. 马钰锡,谭励,董旭,于重重. 中国图象图形学报. 2019(02)
[2]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵. 自动化学报. 2016(06)
本文编号:3088941
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3088941.html