基于特征传播与融合的视频目标检测研究
发布时间:2021-08-10 21:14
目标检测对物体进行识别和定位,在视频监控、智能机器人、自动驾驶等视觉应用系统中承担着对场景进行基础建模的重要作用。由于深度学习的引入,基于静态图像的目标检测算法有了性能上的大幅进步。然而,在实际的应用场景中,视觉系统的输入通常是连续的视频,而不是独立的图像。直接将静态图像目标检测算法应用于视频的每一帧,会出现以下问题:(1)视频图像质量往往会由于运动模糊、尺度变化、目标遮挡等原因出现较为明显的下降,单帧图像无法提供目标的准确信息;(2)视觉系统要求实时性,对每一帧都进行特征计算,算法运行速度无法达到要求;(3)视频图像具有时空一致性,每帧独立检测没有充分利用时序信息。本论文研究基于特征传播与融合的视频目标检测算法。其中,特征融合模块通过建模目标的时空关系,提升了算法的检测精度;特征传播模块通过利用相邻图像的冗余性,提升了算法的检测速度。本论文的主要工作内容和创新性成果包括以下三个方面:1.提出了一种基于循环神经网络的视频目标检测算法。循环神经网络具有记忆保留功能,可以提取视频的时序信息。本算法对传统的循环神经单元进行改进,用于图像帧间的特征传递与聚合,完善当前帧的特征表达。为了减轻运动...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
视频目标检测的主要挑战自2015年开始,国际计算机视觉竞赛ImageNetLargeScaleVisualRecognition
浙江大学硕士学位论文第1章绪论7图1.2P-R曲线表1.1混淆矩阵真值10预测1TP(TruePositive)FP(FalsePositive)0FN(FalseNegative)TN(TrueNegative)=+(1.1)=+(1.2)准确率针对预测而言,是预测正确的正样本数目占预测正样本数目的比例。召回率针对真值而言,是预测正确的正样本数目占实际正样本数目的比例。在预测的过程中,将检测框预测为正还是负由指标IoU(IntersectionoverUnion)决定。IoU表示预测框与真实框之间的重叠程度,具体为两个框的交集和并集的比值,如图1.3所示。当IoU大于给定的阈值时(一般设为0.5),将该检测框作为TP,否则,将该检测框作为FP。需要说明的是,当多个检测框与同一个真实框的IoU大于阈值时,选择IoU最大的检测框作为TP,其他多余的检测框作为FP。FN则定义为没有检测到的真实框的数量。
浙江大学硕士学位论文第1章绪论8图1.3IoU计算方式给定了TP、FP、FN的计算方式,可以求得不同置信度阈值下的准确率和召回率,从而绘制P-R曲线,求得单类别的AP,最后对所有类别的AP进行平均,可以得到最终的评价指标mAP。1.5论文的研究内容和贡献本文研究基于特征传播与融合的视频目标检测算法。视频中的目标具有时空一致性,当需要检测的某一帧图像质量不佳时,可以通过视频中的其他帧作为辅助帧提供补充信息。本文提出两种帧间特征融合的方法,分别为基于循环神经网络(RecurrentNeuralNetwork,RNN)的特征融合方法和基于自注意力机制的特征融合方法。两种方法都能有效提升视频目标检测算法的精度,但密集的特征计算和聚合增大了计算负担。利用视频相邻图像帧的冗余性,本文进一步将上述的视频目标检测算法扩展到区分关键帧和非关键帧的算法框架中。其中,关键帧进行特征的提取与聚合,非关键帧则进行特征的传播,利用关键帧传播而来的特征作为特征的模拟。由于特征传播的计算量远远小于特征提取的计算量,算法的整体速度可以明显提升。本文提出的视频目标检测算法在满足精度和速度平衡的同时,也满足不依赖未来输入的因果性要求。本文的主要创新点具体如下:1.提出了一种基于循环神经网络的视频目标检测算法。由于视频目标检测常常会出现图像质量恶化的问题,直接将静态图像检测器单独应用于视频的每一帧,会出现较大程度的精度下降。本算法对传统的循环神经单元进行改进,用于图像帧间的特征传递与聚合,从而完善当前帧的特征表达。为了减轻相机或者目标运动引起的位置偏移对聚合模块带来的影响,本算法利用光流进行图像帧间的特征对齐,光流的计算融入到网络中,算法框架保持端到端结构。本算法符合因果性的实际系统要求,即在对当前?
本文编号:3334792
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
视频目标检测的主要挑战自2015年开始,国际计算机视觉竞赛ImageNetLargeScaleVisualRecognition
浙江大学硕士学位论文第1章绪论7图1.2P-R曲线表1.1混淆矩阵真值10预测1TP(TruePositive)FP(FalsePositive)0FN(FalseNegative)TN(TrueNegative)=+(1.1)=+(1.2)准确率针对预测而言,是预测正确的正样本数目占预测正样本数目的比例。召回率针对真值而言,是预测正确的正样本数目占实际正样本数目的比例。在预测的过程中,将检测框预测为正还是负由指标IoU(IntersectionoverUnion)决定。IoU表示预测框与真实框之间的重叠程度,具体为两个框的交集和并集的比值,如图1.3所示。当IoU大于给定的阈值时(一般设为0.5),将该检测框作为TP,否则,将该检测框作为FP。需要说明的是,当多个检测框与同一个真实框的IoU大于阈值时,选择IoU最大的检测框作为TP,其他多余的检测框作为FP。FN则定义为没有检测到的真实框的数量。
浙江大学硕士学位论文第1章绪论8图1.3IoU计算方式给定了TP、FP、FN的计算方式,可以求得不同置信度阈值下的准确率和召回率,从而绘制P-R曲线,求得单类别的AP,最后对所有类别的AP进行平均,可以得到最终的评价指标mAP。1.5论文的研究内容和贡献本文研究基于特征传播与融合的视频目标检测算法。视频中的目标具有时空一致性,当需要检测的某一帧图像质量不佳时,可以通过视频中的其他帧作为辅助帧提供补充信息。本文提出两种帧间特征融合的方法,分别为基于循环神经网络(RecurrentNeuralNetwork,RNN)的特征融合方法和基于自注意力机制的特征融合方法。两种方法都能有效提升视频目标检测算法的精度,但密集的特征计算和聚合增大了计算负担。利用视频相邻图像帧的冗余性,本文进一步将上述的视频目标检测算法扩展到区分关键帧和非关键帧的算法框架中。其中,关键帧进行特征的提取与聚合,非关键帧则进行特征的传播,利用关键帧传播而来的特征作为特征的模拟。由于特征传播的计算量远远小于特征提取的计算量,算法的整体速度可以明显提升。本文提出的视频目标检测算法在满足精度和速度平衡的同时,也满足不依赖未来输入的因果性要求。本文的主要创新点具体如下:1.提出了一种基于循环神经网络的视频目标检测算法。由于视频目标检测常常会出现图像质量恶化的问题,直接将静态图像检测器单独应用于视频的每一帧,会出现较大程度的精度下降。本算法对传统的循环神经单元进行改进,用于图像帧间的特征传递与聚合,从而完善当前帧的特征表达。为了减轻相机或者目标运动引起的位置偏移对聚合模块带来的影响,本算法利用光流进行图像帧间的特征对齐,光流的计算融入到网络中,算法框架保持端到端结构。本算法符合因果性的实际系统要求,即在对当前?
本文编号:3334792
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3334792.html
最近更新
教材专著