基于零样本学习的人体行为识别算法研究

发布时间：2020-05-01 23:54

【摘要】：人体行为识别是计算机视觉领域的研究热点之一,具有重要的理论价值和应用前景。随着深度学习技术的发展,基于多样本(监督)学习的行为识别方法取得突破性进展。然而这种方法需要大量的标注样本,且无法扩展到样本量极少甚至零样本情况下的识别任务,导致模型的泛化能力受限。零样本学习可以将已知类别数据的知识迁移到对未知类别的预测,因此为解决上述问题提供了创新性的思路。目前,大多数零样本行为识别方法都是研究基于静态图片的目标识别问题,将此类方法直接应用于基于视频序列的零样本行为识别问题时会导致时序信息缺失、不能有效学习到复杂行为的视觉信息和类别语义的关联关系。针对这些问题,本文重点研究利用具有时序特性的视觉特征和具有语义相关性的语义表示来构建更有效的视觉到语义的映射关系,同时将单标签任务扩展到多标签行为识别。本文主要工作如下:(1)提出了一种基于时序建模和时空网络的零样本行为识别方法,该方法设计双流时空网络将视觉特征映射到语义嵌入空间,网络中的空间流和时间流分别对RGB和光流信息进行处理。通过卷积神经网络预先提取特征后利用循环神经网络对序列特征的上下文信息进行建模,充分获取到视频中的时间动态信息。最后将具有高层语义的时空特征进行融合来增强视觉嵌入的表征能力,提高了对未知行为类别的识别性能。(2)提出了一种基于联合空间和时空网络的零样本行为识别方法,该方法中采用联合(公共)空间来搭建视觉空间和语义空间的桥梁,将视频数据的视觉特征和标签的语义表示都嵌入到这个空间来学习视觉语义的对应关系。这种映射关系不仅能够建模视觉特征和语义表示各个维度的关系,而且同时优化视觉特征、语义表示以及类别标签的关联性,从而构建了更有效的视觉到语义的映射关系,进一步提高了零样本行为识别的准确率。(3)提出了一种基于联合空间和多标签学习的零样本行为识别方法,该方法将单标签任务扩展到对多标签行为数据的识别。针对多标签学习的复杂性,本文利用联合潜在嵌入学习方法为视觉特征和语义表示学习一个联合潜在空间,并通过将人类行为的视觉信息和语义表示分别映射为该空间中的视觉嵌入和语义嵌入以寻找对应关系。同时,在模型学习中交替训练视觉模型和语义模型并设计多损失函数优化来完成多标签零样本行为识别任务。
【图文】：

直方图,传统行为,识别方法

Ｆｉｇｕｒｅ邋２－１邋Ｔｈｅ邋ｆｒａｍｅｗｏｒｋ邋ｏｆ邋ｔｈｅ邋ｔｒａｄｉｔｉｏｎａｌ邋ａｃｔｉｏｎ邋ｒｅｃｏｇｎｉｔｉｏｎ邋ｍｅｔｈｏｄｓ逡逑２．１．１传统人体行为识别方法逡逑传统人体行为识别算法的主要框架如图２－１中所示，对视频数据提取特征得到逡逑特定的行为描述，然后训练对应的分类器，最后再利用训练好的分类器对测试视频逡逑进行预测，过程中主要包括特征提取和分类器训练两个阶段。逡逑传统行为识别方法中的特征是人为设计的，主要分为两种表示形式。第一种是逡逑基于启发的表示，例如ＭＥＩ［１９］和它们包含了视频上下文中有用的信息。逡逑第二种基于局部表示，，可以分为三类，一类是以梯度直方图（ＨｏＧ）邋Ｉ５３】、光流直方逡逑图（ＨｏＦ）邋［５４】、运动边界直方图（ＭＢＨ）［５５］为代表的工作，其视频序列可以表示为逡逑所有时空局部特征的组合；第二类是基于像素模式的描述，局部二值模式（ＬＢＰ）［１４］逡逑６逡逑

基于零样本学习的人体行为识别算法研究

图２４邋ＲＮＮ和ＬＳＴＭ结构丨５８丨逡逑Ｆｉｇｕｒｅ邋２－４邋Ｓｔｒｕｃｔｕｒｅ邋ｏｆ邋ＲＮＮ邋ａｎｄ邋ＬＳＴＭｌ５８Ｊ逡逑
【学位授予单位】：北京交通大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP391.41;TP181

【参考文献】