基于深度学习的视频行人再识别方法研究
发布时间:2020-12-19 19:59
近年来,随着深度学习在计算机视觉领域取得了极大的成功,基于深度学习的智慧监控系统研究也获得研究人员的广泛关注。行人再识别问题作为智慧监控系统的重要组成部分,在寻找走失人口、侦办刑事案件、城市安全管理等方面具有巨大的作用,成为了新的研究热点。视频行人再识别的主要任务是基于视频序列判断由不同摄像机捕获的行人是否为同一身份。然而,由于不同摄像机捕获行人的角度不同,光照条件不同,以及物体或行人之间遮挡等问题,如何准确地实现行人再识别仍是一个巨大的挑战。本文针对目前的视频行人再识别方法进行了深入总结和研究,对存在的问题做出改进。当前的视频行人再识别方法大都需要提前手动提取光流图来计算行人的运动特征,而手动提取光流特征费时费力且光流图会占据大量磁盘空间,不利于应用到实际中。为了解决这一问题,本文提出了一种基于光流引导特征的视频行人再识别方法。首先使用卷积神经网络提取行人图像的空间外观特征,并根据深度特征图计算光流引导特征来描述行人运动信息;然后联合行人空间外观特征与时间运动特征,获得视频级的行人特征描述矢量;最后计算特征描述矢量之间的欧式距离,判定两段图像序列中的行人是否为同一身份。实验证明,该方...
【文章来源】:山西大学山西省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
基于图像和基于视频的行人再识别数据集
第二章行人再识别技术概述9将两幅行人图像同时输入孪生网络的两个权重共享的分支,提取行人特征后计算其距离,并根据距离大小辨别输入图像中的行人是否为同一身份,其结构如图2.1所示。图2.1简单孪生网络结构图像分类网络则是将所有输入的行人图像按照预测的身份进行分类,同一身份为同一种类,否则为不同种类。训练好的网络输入行人图像,输出该行人的所属类别。由于孪生网络结构所需的训练数据相对图像分类网络较少,而训练数据获取不易,因此很多研究人员更多关注孪生网络结构,并在这一结构的基础上加以改进,设计出三元组[35][36]、四元组[37]等结构。在网络训练时,一般孪生网络采用正负样本交替输入的方式,而三元组的输入则为锚点图像与正负样本各一个,四元组损失函数的输入为锚点图像、正样本以及两个不同的负样本。基于难样本采样的三元组[38]是三元组结构的一种改进结构,其输入为经过筛选的难样本对,进一步提升了网络的泛化能力。相比二元组损失函数,三、四元组结构能够提升网络性能,达到更高的准确率,但其计算量也相对较大。因此,目前使用最广泛的仍为二元组损失函数。2.1.2度量学习固定行人距离度量方法直接计算行人特征描述向量之间的距离或者相似度。欧式距离是最常见的距离计算方法,由于其计算量小,能够更加直观的描述向量之间的距离而被广泛采用。部分研究人员采用计算两个向量之间的相关性作为距离度量方法,这种方法不仅关注两个向量的距离,同时也考虑到两个向量的方向等元素对向量相关性的影响。距离度量与相似性度量的区别在于距离度量的值越大代表距离越远,行人为不同身份的概率越大,而相似性值越小代表两个向量的相关性越小,行人为不同身份的概率越大。基于度量学习的方法通过训练学习合适的度量函数参
第二章行人再识别技术概述11图2.2基于时空对齐的视频行人再识别2.2.2基于深度学习方法深度学习的快速发展给基于视频的行人再识别带来了新的思路。结合卷积神经网络与循环神经网络的CNN-RNN结构成为基础方法之一,其结构如图2.3所示图2.3视频行人再识别的CNN-RNN结构输入视频序列首先经过CNN提取深度特征,然后利用RNN融合多个时间步的信息,最后将RNN的输出通过时间池化操作整合,获得视频级的行人特征描述矢量。在网络训练阶段,一般采用身份损失与对比损失相结合的方式,在网络测试阶段,将CNN-RNN结构作为特征提取器,获取两个视频序列对相应的描述矢量并计算其欧式距离,实现行人身份判定。注意力机制是一种快速筛选有效信息的机制,与深度学习结合的注意力在多项任务上实现了较好的结果,引起了研究人员的注意。在近几年,基于注意力机制的视频行人再识别也获得了较大的发展,各种方式接连不断地涌现。相对于单独在时间或者空间维度添加注意力机制的方法,同时在时间和空间维度添加注意力机制能够获得更好的识别准确率,因此该方法更受研究者们的青睐。
本文编号:2926487
【文章来源】:山西大学山西省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
基于图像和基于视频的行人再识别数据集
第二章行人再识别技术概述9将两幅行人图像同时输入孪生网络的两个权重共享的分支,提取行人特征后计算其距离,并根据距离大小辨别输入图像中的行人是否为同一身份,其结构如图2.1所示。图2.1简单孪生网络结构图像分类网络则是将所有输入的行人图像按照预测的身份进行分类,同一身份为同一种类,否则为不同种类。训练好的网络输入行人图像,输出该行人的所属类别。由于孪生网络结构所需的训练数据相对图像分类网络较少,而训练数据获取不易,因此很多研究人员更多关注孪生网络结构,并在这一结构的基础上加以改进,设计出三元组[35][36]、四元组[37]等结构。在网络训练时,一般孪生网络采用正负样本交替输入的方式,而三元组的输入则为锚点图像与正负样本各一个,四元组损失函数的输入为锚点图像、正样本以及两个不同的负样本。基于难样本采样的三元组[38]是三元组结构的一种改进结构,其输入为经过筛选的难样本对,进一步提升了网络的泛化能力。相比二元组损失函数,三、四元组结构能够提升网络性能,达到更高的准确率,但其计算量也相对较大。因此,目前使用最广泛的仍为二元组损失函数。2.1.2度量学习固定行人距离度量方法直接计算行人特征描述向量之间的距离或者相似度。欧式距离是最常见的距离计算方法,由于其计算量小,能够更加直观的描述向量之间的距离而被广泛采用。部分研究人员采用计算两个向量之间的相关性作为距离度量方法,这种方法不仅关注两个向量的距离,同时也考虑到两个向量的方向等元素对向量相关性的影响。距离度量与相似性度量的区别在于距离度量的值越大代表距离越远,行人为不同身份的概率越大,而相似性值越小代表两个向量的相关性越小,行人为不同身份的概率越大。基于度量学习的方法通过训练学习合适的度量函数参
第二章行人再识别技术概述11图2.2基于时空对齐的视频行人再识别2.2.2基于深度学习方法深度学习的快速发展给基于视频的行人再识别带来了新的思路。结合卷积神经网络与循环神经网络的CNN-RNN结构成为基础方法之一,其结构如图2.3所示图2.3视频行人再识别的CNN-RNN结构输入视频序列首先经过CNN提取深度特征,然后利用RNN融合多个时间步的信息,最后将RNN的输出通过时间池化操作整合,获得视频级的行人特征描述矢量。在网络训练阶段,一般采用身份损失与对比损失相结合的方式,在网络测试阶段,将CNN-RNN结构作为特征提取器,获取两个视频序列对相应的描述矢量并计算其欧式距离,实现行人身份判定。注意力机制是一种快速筛选有效信息的机制,与深度学习结合的注意力在多项任务上实现了较好的结果,引起了研究人员的注意。在近几年,基于注意力机制的视频行人再识别也获得了较大的发展,各种方式接连不断地涌现。相对于单独在时间或者空间维度添加注意力机制的方法,同时在时间和空间维度添加注意力机制能够获得更好的识别准确率,因此该方法更受研究者们的青睐。
本文编号:2926487
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2926487.html