基于时间和空间双流神经网络的步态识别
发布时间:2022-05-02 23:07
步态是一种流行的生物识别技术,可以远距离识别人类。它应该是唯一可以在远距离收集的生物特征。由于其独特的优势和在视频监控中的巨大潜力,在过去的20年中,许多研究人员对其进行了研究。尤其是近几年来,随着深度学习的发展,步态识别有了很大的提高。如今指纹、人脸识别的技术愈发成熟,但是步态识别技术的应用还面临许多挑战,比如摄像头视角变化、衣着变化等对识别的影响,所以我选择步态识别这个课题,希望能为解决步态识别中的难题提供一些思路。因为步态是一种行为特征,并且在时域中包含对象的一些独特运动模式,所以在步态识别中同时使用空间信息和时序信息更加合理。本文对步态视频序列进行研究,提取时序上的特征,最大化对时序信息的利用。首先,设计了多尺度时间网络(MSTN)来提取序列中的时序信息。多尺度时间网络(MSTN)受到快慢网络(Slow Fast Network)的启发。多尺度时间网络不仅保留了帧的完整性,而且增强了动态信息,可以有效地利用视频序列中的时序信息。在多尺度时间网络(MSTN)中,以不同的时间尺度来构建时间金字塔,并最终整合每个时间尺度的信息。高帧率可保留所有帧的空间信息,而低帧率可增强帧之间的动态...
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
左:3D圆柱体模型,右:模型中的运动角度[3]
基于时间和空间双流神经网络的步态识别7图2-2人体模型共有14个部分[7]2.1.2基于轮廓的方法与基于模型的方法相比,基于外观的方法通常易于实现,因为它们直接从2D人体轮廓中提取特征。例如,在[5]中,Makiharaet等人首先提取频域特征,构建视图变换模型。在[8]中,Kusakunniranet等人考虑了跨步态之间的相关性。在基于外观的方法中,步态能量图像(GEI)[1]可能是最受欢迎的功能,除了GEI外,还有其他步态特征图像,如:ChronoGaitImage(CGI)[12],和GaitFlowImage(GFI)[45]。在这些方法中,图1中的步态能量图像(GaitEnergyImage,GEI)[1,7]在步态识别中体现出有效性和鲁棒性,而且计算简单、占用内存低,一度成为了最流行的方法。在GEI[1]中,如图2-3,作者仅考虑通过活动特定的人类动作(即常规的人类行走)来进行个人识别在目前大多数通过步态进行个体识别的方法中。正常的人类步行可以被认为是周期性运动人体运动以稳定的频率重复。虽然有些步态识别方法从所有相关性中提取特征在不考虑其顺序的情况下按行走顺序排列框架,其他方法则从每个帧中提取特征并组成一个人类行走序列的特征序列。在识别过程中,这些方法要么匹配从特征序列收集的统计信息,或与两个中对应的框架对之间的特征就其周期而言时间标准化的序列长度。这里做出的基本假设是:1)的顺序人类步行周期中的姿势是相同的,
基于时间和空间双流神经网络的步态识别8即四肢向前移动在普通人中以类似的方式向后退,并且2)在步行周期中,姿势阶段存在差异,四肢伸展,躯干的形状等。在这些之下假设,有可能代表时空单个2D步态模板中的信息,而不是有序的图像序列。图2-3步态能量图像[1]2.1.3基于深度学习的方法随着计算机硬件的发展,计算能力提升,研究者们发现GEI作为一个步态序列的平均图像,丢失了许多信息,他们希望直接在视频序列上操作,以进一步提升识别准确率。在视频序列处理上,研究者们希望能够提取视频中的时序信息。论文[9]使用了成对的GEI输入网络,第一层网络模拟减法来计算这一对输入图像,第二层网络可以得到用于预测相似性的差异,最后一层网络用两个节点以构成双向分类器。现在比较流行的做法是利用卷积网络(ConvolutionNeuralNetwork,CNN)[6,10,11,12],把多个帧组合到多通道数据作为CNN模型的输入,用CNN处理多通道数据。论文[6]中,作者不去刻意建模步态silhouette的时序关系,而将步态剪影当作没有时序关系的图像集,让深度神经网络自身优化去提取并利用这种关系。输入的每幅图像单独处理,提取多幅图像CNN特征,并将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。再用多特征集合池化(SetPooling)将多幅图像的特征聚合为一个特征向量。最后使用水平金字塔(HorizontalPyramidPooling,HPP)提取4个尺度的特征,为使得特征提取兼具局部和全局性,并在网络最后使用全连接层优化特征整体鉴别性。
本文编号:3650140
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
左:3D圆柱体模型,右:模型中的运动角度[3]
基于时间和空间双流神经网络的步态识别7图2-2人体模型共有14个部分[7]2.1.2基于轮廓的方法与基于模型的方法相比,基于外观的方法通常易于实现,因为它们直接从2D人体轮廓中提取特征。例如,在[5]中,Makiharaet等人首先提取频域特征,构建视图变换模型。在[8]中,Kusakunniranet等人考虑了跨步态之间的相关性。在基于外观的方法中,步态能量图像(GEI)[1]可能是最受欢迎的功能,除了GEI外,还有其他步态特征图像,如:ChronoGaitImage(CGI)[12],和GaitFlowImage(GFI)[45]。在这些方法中,图1中的步态能量图像(GaitEnergyImage,GEI)[1,7]在步态识别中体现出有效性和鲁棒性,而且计算简单、占用内存低,一度成为了最流行的方法。在GEI[1]中,如图2-3,作者仅考虑通过活动特定的人类动作(即常规的人类行走)来进行个人识别在目前大多数通过步态进行个体识别的方法中。正常的人类步行可以被认为是周期性运动人体运动以稳定的频率重复。虽然有些步态识别方法从所有相关性中提取特征在不考虑其顺序的情况下按行走顺序排列框架,其他方法则从每个帧中提取特征并组成一个人类行走序列的特征序列。在识别过程中,这些方法要么匹配从特征序列收集的统计信息,或与两个中对应的框架对之间的特征就其周期而言时间标准化的序列长度。这里做出的基本假设是:1)的顺序人类步行周期中的姿势是相同的,
基于时间和空间双流神经网络的步态识别8即四肢向前移动在普通人中以类似的方式向后退,并且2)在步行周期中,姿势阶段存在差异,四肢伸展,躯干的形状等。在这些之下假设,有可能代表时空单个2D步态模板中的信息,而不是有序的图像序列。图2-3步态能量图像[1]2.1.3基于深度学习的方法随着计算机硬件的发展,计算能力提升,研究者们发现GEI作为一个步态序列的平均图像,丢失了许多信息,他们希望直接在视频序列上操作,以进一步提升识别准确率。在视频序列处理上,研究者们希望能够提取视频中的时序信息。论文[9]使用了成对的GEI输入网络,第一层网络模拟减法来计算这一对输入图像,第二层网络可以得到用于预测相似性的差异,最后一层网络用两个节点以构成双向分类器。现在比较流行的做法是利用卷积网络(ConvolutionNeuralNetwork,CNN)[6,10,11,12],把多个帧组合到多通道数据作为CNN模型的输入,用CNN处理多通道数据。论文[6]中,作者不去刻意建模步态silhouette的时序关系,而将步态剪影当作没有时序关系的图像集,让深度神经网络自身优化去提取并利用这种关系。输入的每幅图像单独处理,提取多幅图像CNN特征,并将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。再用多特征集合池化(SetPooling)将多幅图像的特征聚合为一个特征向量。最后使用水平金字塔(HorizontalPyramidPooling,HPP)提取4个尺度的特征,为使得特征提取兼具局部和全局性,并在网络最后使用全连接层优化特征整体鉴别性。
本文编号:3650140
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3650140.html