基于深度孪生网络的视觉目标跟踪方法研究
发布时间:2020-12-26 06:42
视觉目标跟踪技术是人工智能的重要研究方向,具有重要的研究价值和意义。目前基于孪生网络的方法在目标跟踪领域取得了巨大的成功,但是在面临复杂的跟踪场景时仍然出现跟踪失败的情况,如何构建一个高效且鲁棒的目标跟踪系统仍然是一个巨大的挑战。本文以深度孪生网络框架为理论基础,对加强网络分支输入、网络结构和分层特征融合并结合深度残差网络开展研究工作,具体的研究工作概况如下:(1)提出一种基于注意力机制的孪生网络跟踪算法,增强网络模型的判别能力,实现在线学习目标外观变化和背景抑制,得到鲁棒的跟踪结果。通过在模板分支和搜索分支中加入前一帧跟踪所得到的结果作为矫正单元,弥补网络在应对目标外观变化的不足,并通过在孪生网络中加入空间注意力模块和通道注意力模块实现不同帧之间的特征融合,从而在线学习目标形变和背景抑制,进一步提升模型的特征表达能力。(2)以ResNet 网络作为基础网络通过引入内部裁剪单元,对网络结构进行修改使其更加适合目标跟踪任务。深层特征含有丰富的语义信息,对目标显著的外观变化具有鲁棒性,所以引入特征金字塔融合孪生网络的上下层特征得到空间几何信息和语义信息丰富的特征图,对同一尺寸不同维度的特征...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2.1?LeNet5网络结构??Fig.?2.1?LeNet5?network?structure??-8-??
?基于深度孪生网络的视觉目标跟踪方法研宄???LeNet-5采用反向传播算法训练神经网络,奠定了卷积神经网络的组成结构,图2.1表??示的是网络结构中各个组成部分,下面将对每个部分进行解释。??(1)输入层:网络数据的主要输入接口,一般获取的是图像的像素级别信息。??(2)卷积层:主要是在输入层输入的图像上面利用固定步长和一定尺寸的卷积核滑动??并进行点积运算,提取输入图像局部特征。特征在被提取后,与其它特征间的空间位置关系??也随之确定下来。随着层数的深入,提取到的特征也会越来越抽象。??假设输入图像尺寸为R?x//,〇,卷积层的滤波器超参数分别是:滤波器数量尺、滤波??器的空间尺寸F、步长S、零填充数量则输入图像经过卷积层的输出大小??式(2.1)、式(2.2)和式(2.3)所示:??W)+丨?(川??S??^("「厂?+?气?(2.2)??D2=K?(2.3)??池化层:本质是一种降采样,是对感受野覆盖区域的特征进行聚合统计,减小特征图的??大小,降低特征的空间尺寸,压缩特征。由于图像的特征具有稳定性和不变性,所以可以采??取一定的池化手段比如最大池化等操作对图像进行采样,计算方式与卷积层类似,但是矩阵??之间的运算规律不一样,并且不经过反向传播的修改。??1?1?2?3??|5?6?7?8?最大池化操作?6?8??4?—5?1.?0?F=2?SlndC=2?5?4??-r—??:?^????->?3?4??r? ̄?iK??图2.2最大池化??Fig.?2.2?Max?pooling??图2.2展示了卷积神经网络中最大池化的过程,将原先4x4的尺寸,经最大池化后将特??征压缩
估算法在不同场景的跟踪性能。??本节将对OTB数据集、ILSVRC2015-VID数据集进行简单介绍。??2.?3.?1?OTB数据集??为了综合评估跟踪算法的各个方面的性能,Wu等人建立了?OTB?(Object?Tracking??Benchmark,?OTB)数据集,其中OTB50数据集包含了?50个视频序列,OTBIOO数据集包??含了?100个视频序列。OTB数据集对包含目标的视频序列进行了统一处理,对边界框进行??标注,每个视频序列包含如第一节所述的一种或多种挑战因素,如图2.6展示了用于评估的??跟踪序列。同时数据集提供了统一的代码接口,建立了标准化的输入和输出,各种算法通过??下载评估工具类可以很方便地使用OTB数据集进行对比实验。??OTB数据集采用OPE?(One-pass?Evaluation)的评估方法,选取目标跟踪精度和成功率??作为评价算法性能的指标。即利用目标真实值初始化第一帧,用一次跟踪得到的精度图和成??功率图来评估算法跟踪效果。中心位置误差(Center?Location?Error)其定义是跟踪算法所估??计的目标边界框的中心点与人工标注边界框的中心点的平均欧几里德距离,用来衡量目标跟??踪精度。为了更加准确地评价跟踪算法,选用对应阈值为20pixcl的精度值来衡量算法的跟??踪精度,该阈值大致对应于跟踪器边界框与人工标注边界框之间至少50%的重叠使用??边界框重合率(bounding?box?overlap)来评沾跟踪算法在-次跟踪时的成功率,边界框重合??率的表示如式(2.10)所示:??网?(2.1〇)??其屮〃,为跟踪目标的边框区域;rg为目标真实边框K域;n和U分别为面积
本文编号:2939231
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2.1?LeNet5网络结构??Fig.?2.1?LeNet5?network?structure??-8-??
?基于深度孪生网络的视觉目标跟踪方法研宄???LeNet-5采用反向传播算法训练神经网络,奠定了卷积神经网络的组成结构,图2.1表??示的是网络结构中各个组成部分,下面将对每个部分进行解释。??(1)输入层:网络数据的主要输入接口,一般获取的是图像的像素级别信息。??(2)卷积层:主要是在输入层输入的图像上面利用固定步长和一定尺寸的卷积核滑动??并进行点积运算,提取输入图像局部特征。特征在被提取后,与其它特征间的空间位置关系??也随之确定下来。随着层数的深入,提取到的特征也会越来越抽象。??假设输入图像尺寸为R?x//,〇,卷积层的滤波器超参数分别是:滤波器数量尺、滤波??器的空间尺寸F、步长S、零填充数量则输入图像经过卷积层的输出大小??式(2.1)、式(2.2)和式(2.3)所示:??W)+丨?(川??S??^("「厂?+?气?(2.2)??D2=K?(2.3)??池化层:本质是一种降采样,是对感受野覆盖区域的特征进行聚合统计,减小特征图的??大小,降低特征的空间尺寸,压缩特征。由于图像的特征具有稳定性和不变性,所以可以采??取一定的池化手段比如最大池化等操作对图像进行采样,计算方式与卷积层类似,但是矩阵??之间的运算规律不一样,并且不经过反向传播的修改。??1?1?2?3??|5?6?7?8?最大池化操作?6?8??4?—5?1.?0?F=2?SlndC=2?5?4??-r—??:?^????->?3?4??r? ̄?iK??图2.2最大池化??Fig.?2.2?Max?pooling??图2.2展示了卷积神经网络中最大池化的过程,将原先4x4的尺寸,经最大池化后将特??征压缩
估算法在不同场景的跟踪性能。??本节将对OTB数据集、ILSVRC2015-VID数据集进行简单介绍。??2.?3.?1?OTB数据集??为了综合评估跟踪算法的各个方面的性能,Wu等人建立了?OTB?(Object?Tracking??Benchmark,?OTB)数据集,其中OTB50数据集包含了?50个视频序列,OTBIOO数据集包??含了?100个视频序列。OTB数据集对包含目标的视频序列进行了统一处理,对边界框进行??标注,每个视频序列包含如第一节所述的一种或多种挑战因素,如图2.6展示了用于评估的??跟踪序列。同时数据集提供了统一的代码接口,建立了标准化的输入和输出,各种算法通过??下载评估工具类可以很方便地使用OTB数据集进行对比实验。??OTB数据集采用OPE?(One-pass?Evaluation)的评估方法,选取目标跟踪精度和成功率??作为评价算法性能的指标。即利用目标真实值初始化第一帧,用一次跟踪得到的精度图和成??功率图来评估算法跟踪效果。中心位置误差(Center?Location?Error)其定义是跟踪算法所估??计的目标边界框的中心点与人工标注边界框的中心点的平均欧几里德距离,用来衡量目标跟??踪精度。为了更加准确地评价跟踪算法,选用对应阈值为20pixcl的精度值来衡量算法的跟??踪精度,该阈值大致对应于跟踪器边界框与人工标注边界框之间至少50%的重叠使用??边界框重合率(bounding?box?overlap)来评沾跟踪算法在-次跟踪时的成功率,边界框重合??率的表示如式(2.10)所示:??网?(2.1〇)??其屮〃,为跟踪目标的边框区域;rg为目标真实边框K域;n和U分别为面积
本文编号:2939231
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2939231.html