面向复杂场景的视觉目标跟踪方法研究
发布时间:2021-07-07 17:54
作为计算机视觉领域的一个热点课题,目标跟踪在智慧城市、智能交通系统和国防军事等领域有着非常广泛的应用。尽管近些年来已经取得了长足的进度,但是复杂场景下的目标跟踪仍然是一个非常具有挑战性的问题。在复杂场景下,目标在跟踪过程中所经历的巨大的外观变化和遮挡问题是制约跟踪性能的重要因素。基于以上分析,本文提出了一系列目标跟踪算法来应对目标复杂的外观变化和解决遮挡问题。本文的主要贡献如下:1)为了深入挖掘目标不同局部块的外观特性以准确地跟踪目标,提出了一种新的局部稀疏外观模型。该方法将候选目标的局部块划分为稳定块、有效块和无效块,并且为这些局部块分配不同的权值。首先,提出了一个局部稀疏分数来有效地挖掘稳定块。为了消除背景块的影响,本文设计了一种判别性局部稀疏编码方法来降低背景块的权值。其次,通过利用稀疏表达中的局部性,设计了一种局部线性回归方法以区分有效快和无效块。最后,为了确保权值分配操作更加合理,本文提出了一种权值收缩方法来决定有效块的权值。通过挖掘不同类型的局部块并为它们分配不同的权值,所提出的方法可以有效地捕获目标巨大的外观变化和处理遮挡问题。在多个公共的目标跟踪数据库上进行的实验表明,...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:137 页
【学位级别】:博士
【部分图文】:
相关滤波方法利用循环卷积产生样本
卷积积神经网络跟踪方法:卷积神经网络(Convolutional Neural Network,CNN)是在传统神经网络的基础上发展而来的一种新型网络。它可以分层地提取出目标高层的语义信息和低层的简单信息来进行目标跟踪。Hong等人[83]利用预先训练好的CNN提取深度特征来进行目标外观建模,并且构建了一个目标显著图以准确跟踪目标。由于该目标显著图能够有效地表示目标的空间信息,因此所该算法能够达到像素级别的目标定位。Wang等人[84]深度研究了CNN对目标跟踪的意义,并且发现不同卷积层从不同的角度对目标进行表示。其中高层卷积层能够编码目标的语义信息来进行目标分类,而底层卷积层则包含了目标的判别信息来进行目标定位。Ma等人[85]利用CNN提取多层特征用来捕获目标的语义信息和细粒度信息以处理大的外观变化和模型漂移,并且为每层特征学习一个线性相关滤波器。通过采用由粗到精的方式结合多个滤波器响应来定位目标。为了克服训练样本过少所带来的深度模型过拟合问题,Wang等人[86]提出了一种序列训练方法(Sequential Training Method)训练CNN来将训练好的深度特征迁移到跟踪任务,并且防止过拟合。但是该方法时间复杂度较高,不能满足实时跟踪的要求。Chi等人[87]提出一个双层结构的深度网络将边界和形状信息融入到多层特征中来进一步提高目标跟踪性能。该双层结构的网络采用周期性和随机性的根性规则以解决模型漂移和目标遮挡等问题。为了应对跟踪过程中所出现的与目标外观相似的干扰项,Fan等人[88]利用RNN(recurrent neural network)建模目标结果并将其融合到CNN中以提高跟踪的鲁班性。该方法不仅利用CNN来提取多个层次的特征,而且使用多个RNN从不同角度建模目标结构。Teng等人[89]提出了一个TSN(Temporal-Spatial Network)网络来考虑时间和空间信息以提高目标的跟踪效果。TSN网络包括一个特征网络、一个时间网络和一个空间网络。其中特征网络负责提出特征表示目标,时间网络考虑从全局的角度来考虑目标在跟踪过程中的时间信息,空间网络则考虑目标的局部空间信息。Nam等人[90]基于CNN提出了一种新的MDNet(Multi-Domain Network)来进行目标跟踪。MDNet包括目标共享层和多个特定领域层分支。该算法在公开数据集上取得了领先的跟踪效果。为了提高MDNet的跟踪速度,Jung等人[90]在MDNet的基础上提出了一个RoIAlign技术从一个特征图中提取更准确的目标表示。该方法可以达到50帧每秒的跟踪速度。为了使深度特征能够更好的表示任意形式的跟踪目标,Li等人[92]学习了一个目标感知网络来选取能够更好表示目标的特征。文献[93]提出了一种基于卷积神经网络的定向扰动和HOG特征的跟踪算法.孪生网络跟踪方法:孪生网络(Siamese Network)方法主要是将相性度学习的思想引入到卷积神经网络当中来进行目标跟踪,并且取得了非常不错的效果。如图1.2所示,Bertinetto等人[94]首先提出了一种孪生网络方法在更大的搜索范围内定位目标。该框架关于搜索图片是全连接的,因此可以达到密集的滑动窗口采样。为了有效地学习目标在跟踪过程中的外观变化来应对背景干扰,Guo等人[95]提出了一种动态的孪生网络方法(Dynamic Siamese Network)来进行目标跟踪。该方法利用一个快速变换学习模型在线学习目标的外观变化并且压缩背景。考虑到在分类任务中学习得到的语义特征和在相似性匹配任务中学习到的外观特征具有互补性,He等人[96]等人提出了一个双层孪生网路来进行实时跟踪。该网络包括一个语义分支和一个外观分支,并且这两个分支被独立的训练以保证不同特征的异构性。Li等人[97]提出了一种SimaRPN(Siamese region proposal network)方法获取顶级的跟踪性能和实时的跟踪速度。SiamRPN由一个孪生子网络和一个区域候选子网络组成。前者负责提取特征,而后者包括分类和回归两个分支。Wang等人[98]等人采用端到端(End-to-End)的方式学习了一种RASNet(Residual Attentional Siamese Network)进行高效的目标跟踪。RASNet方法将相关滤波融入到孪生网络当中进行训练,并且设计了多种不同的关注机制确保模型适应目标的外观变化以防止过拟合发生。为了应对非刚体目标的外观变化和遮挡,Zhang等人[99]提出了一种结构化孪生网络来考虑目标的局部模式和局部模式之间的关系来更加准确地跟踪目标。该方法可以有效地识别具有判别性的局部模式,并且通过匹配局部模式的方式完成跟踪。Dong等人[100]在孪生网络中加入了一种新的三元损失来提取更加有效的深度特征进行目标跟踪。与原有的二元损失相比,所提出的三元损失能够挖掘样本之间的潜在关系来获取更好的跟踪效果。Zhu等人[101]通过分析训练数据中非语义背景和语义干扰项的不平衡导致跟踪效果不佳,进而提出了一种DaSiamRPN网络进行目标跟踪。该方法采用一种有效的采样策略来确保模型更加关注具有语义信息的干扰项,进而压缩背景干扰。为了处理背景中的相似干扰项和尺度变化,Fan等人[102]提出了一个多阶段的C-RPN(Siamese Cascaded RPN)跟踪方法。该方法由孪生网路的高层到低层特征级联得到一系列的RPN网络来准确定位目标。Li等人[103]深入分析了孪生网络缺乏平移不变性的不足,提出了一种空间感知的采样策略来克服该缺陷并且设计了一个残差网驱动的孪生网络来进行目标跟踪。文献[104]通过在线更新网络参数,使网络能够在通用特征的基础上进一步学到当前目标的特定特征。
为了促进目标跟踪研究的发展,目前已经有多个跟踪数据集被用来评估不同跟踪算法的跟踪性能。常见的目标跟踪数据集有OTB(Object Tracking Benchmark)[111,112]、VOT(Visual Object Tracking Challenge)[113–115]、TC-128(TempleColor128)[116]、UAV123(Unmanned Aerial Vehicle 123)[117]。具体来说,OTB是标准的目标跟踪数据集,VOT是一年一度的视觉目标跟踪竞赛所使用的数据集,TC-128是由128个彩色视频组成的数据集,UVA123包含123个无人机航拍视频。在所有的这些数据集中,OTB和VOT是两个最重要而且应用的最广的目标跟踪数据集。因此,本文重点介绍这两个公开数据集。1.3.1 OTB数据集
本文编号:3270090
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:137 页
【学位级别】:博士
【部分图文】:
相关滤波方法利用循环卷积产生样本
卷积积神经网络跟踪方法:卷积神经网络(Convolutional Neural Network,CNN)是在传统神经网络的基础上发展而来的一种新型网络。它可以分层地提取出目标高层的语义信息和低层的简单信息来进行目标跟踪。Hong等人[83]利用预先训练好的CNN提取深度特征来进行目标外观建模,并且构建了一个目标显著图以准确跟踪目标。由于该目标显著图能够有效地表示目标的空间信息,因此所该算法能够达到像素级别的目标定位。Wang等人[84]深度研究了CNN对目标跟踪的意义,并且发现不同卷积层从不同的角度对目标进行表示。其中高层卷积层能够编码目标的语义信息来进行目标分类,而底层卷积层则包含了目标的判别信息来进行目标定位。Ma等人[85]利用CNN提取多层特征用来捕获目标的语义信息和细粒度信息以处理大的外观变化和模型漂移,并且为每层特征学习一个线性相关滤波器。通过采用由粗到精的方式结合多个滤波器响应来定位目标。为了克服训练样本过少所带来的深度模型过拟合问题,Wang等人[86]提出了一种序列训练方法(Sequential Training Method)训练CNN来将训练好的深度特征迁移到跟踪任务,并且防止过拟合。但是该方法时间复杂度较高,不能满足实时跟踪的要求。Chi等人[87]提出一个双层结构的深度网络将边界和形状信息融入到多层特征中来进一步提高目标跟踪性能。该双层结构的网络采用周期性和随机性的根性规则以解决模型漂移和目标遮挡等问题。为了应对跟踪过程中所出现的与目标外观相似的干扰项,Fan等人[88]利用RNN(recurrent neural network)建模目标结果并将其融合到CNN中以提高跟踪的鲁班性。该方法不仅利用CNN来提取多个层次的特征,而且使用多个RNN从不同角度建模目标结构。Teng等人[89]提出了一个TSN(Temporal-Spatial Network)网络来考虑时间和空间信息以提高目标的跟踪效果。TSN网络包括一个特征网络、一个时间网络和一个空间网络。其中特征网络负责提出特征表示目标,时间网络考虑从全局的角度来考虑目标在跟踪过程中的时间信息,空间网络则考虑目标的局部空间信息。Nam等人[90]基于CNN提出了一种新的MDNet(Multi-Domain Network)来进行目标跟踪。MDNet包括目标共享层和多个特定领域层分支。该算法在公开数据集上取得了领先的跟踪效果。为了提高MDNet的跟踪速度,Jung等人[90]在MDNet的基础上提出了一个RoIAlign技术从一个特征图中提取更准确的目标表示。该方法可以达到50帧每秒的跟踪速度。为了使深度特征能够更好的表示任意形式的跟踪目标,Li等人[92]学习了一个目标感知网络来选取能够更好表示目标的特征。文献[93]提出了一种基于卷积神经网络的定向扰动和HOG特征的跟踪算法.孪生网络跟踪方法:孪生网络(Siamese Network)方法主要是将相性度学习的思想引入到卷积神经网络当中来进行目标跟踪,并且取得了非常不错的效果。如图1.2所示,Bertinetto等人[94]首先提出了一种孪生网络方法在更大的搜索范围内定位目标。该框架关于搜索图片是全连接的,因此可以达到密集的滑动窗口采样。为了有效地学习目标在跟踪过程中的外观变化来应对背景干扰,Guo等人[95]提出了一种动态的孪生网络方法(Dynamic Siamese Network)来进行目标跟踪。该方法利用一个快速变换学习模型在线学习目标的外观变化并且压缩背景。考虑到在分类任务中学习得到的语义特征和在相似性匹配任务中学习到的外观特征具有互补性,He等人[96]等人提出了一个双层孪生网路来进行实时跟踪。该网络包括一个语义分支和一个外观分支,并且这两个分支被独立的训练以保证不同特征的异构性。Li等人[97]提出了一种SimaRPN(Siamese region proposal network)方法获取顶级的跟踪性能和实时的跟踪速度。SiamRPN由一个孪生子网络和一个区域候选子网络组成。前者负责提取特征,而后者包括分类和回归两个分支。Wang等人[98]等人采用端到端(End-to-End)的方式学习了一种RASNet(Residual Attentional Siamese Network)进行高效的目标跟踪。RASNet方法将相关滤波融入到孪生网络当中进行训练,并且设计了多种不同的关注机制确保模型适应目标的外观变化以防止过拟合发生。为了应对非刚体目标的外观变化和遮挡,Zhang等人[99]提出了一种结构化孪生网络来考虑目标的局部模式和局部模式之间的关系来更加准确地跟踪目标。该方法可以有效地识别具有判别性的局部模式,并且通过匹配局部模式的方式完成跟踪。Dong等人[100]在孪生网络中加入了一种新的三元损失来提取更加有效的深度特征进行目标跟踪。与原有的二元损失相比,所提出的三元损失能够挖掘样本之间的潜在关系来获取更好的跟踪效果。Zhu等人[101]通过分析训练数据中非语义背景和语义干扰项的不平衡导致跟踪效果不佳,进而提出了一种DaSiamRPN网络进行目标跟踪。该方法采用一种有效的采样策略来确保模型更加关注具有语义信息的干扰项,进而压缩背景干扰。为了处理背景中的相似干扰项和尺度变化,Fan等人[102]提出了一个多阶段的C-RPN(Siamese Cascaded RPN)跟踪方法。该方法由孪生网路的高层到低层特征级联得到一系列的RPN网络来准确定位目标。Li等人[103]深入分析了孪生网络缺乏平移不变性的不足,提出了一种空间感知的采样策略来克服该缺陷并且设计了一个残差网驱动的孪生网络来进行目标跟踪。文献[104]通过在线更新网络参数,使网络能够在通用特征的基础上进一步学到当前目标的特定特征。
为了促进目标跟踪研究的发展,目前已经有多个跟踪数据集被用来评估不同跟踪算法的跟踪性能。常见的目标跟踪数据集有OTB(Object Tracking Benchmark)[111,112]、VOT(Visual Object Tracking Challenge)[113–115]、TC-128(TempleColor128)[116]、UAV123(Unmanned Aerial Vehicle 123)[117]。具体来说,OTB是标准的目标跟踪数据集,VOT是一年一度的视觉目标跟踪竞赛所使用的数据集,TC-128是由128个彩色视频组成的数据集,UVA123包含123个无人机航拍视频。在所有的这些数据集中,OTB和VOT是两个最重要而且应用的最广的目标跟踪数据集。因此,本文重点介绍这两个公开数据集。1.3.1 OTB数据集
本文编号:3270090
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3270090.html