串流深度网络模型用于视频动作识别

发布时间:2021-03-25 10:02
  视频中的动作识别,目的是使计算机能够看懂人类的动作,从而做出相应的回应,是当前计算机视觉领域的一个研究热点和难点。相对于图像识别的发展,视频中的动作识别考虑的是一段视频,涉及多种不同类型特征,从而使得动作识别不像图像识别领域的发展一样迅速、高效。视频中的动作识别研究从早期的传统方法到近年来的深度学习方法,其识别的速度和准确度都在不断提升。深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本文基于双流方法分别在空间流和时间流模型上进行改进,再对空间流和时间流模型采用串联的方式完成整体串流网络模型的搭建。单个的空间流和时间流,对视频特征侧重点不同,一个侧重于空间信息,一个侧重于时间信息。本文提出的多层分类的串流网络模型,将空间流作为第一层分类模型,根据空间流模型的分类得分判断是否存在空间特征模糊情况,选择是否进入第二层的时间流分类模型。进入时间模型后,根据时间流模型的分类得分判断是否时间特征也模糊,选择是否进入第三层的得分融合模型将空间特征和时间特征进行融合分类。这种融合方法根据输入视频特征,自适应调整融合方案,不仅有效地减少了计算量,节约了资源空间,而且还保留... 

【文章来源】:江西理工大学江西省

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

串流深度网络模型用于视频动作识别


原始视频帧和剪影能量图像

能量图,光流,图片


图2.1 原始视频帧和剪影能量图像光流是物体在空间中运动的直观表示,是一个物体运动时在空间中所发生的变化,光流特征则是用来描述这种变化。如下图2.2 所示,左边的两张原始图片是 UCF101 数据集[36]视频中的相邻的两帧,右边则是通过 Brox 光流算法[37]得出的光流图片。基于光流特征Mahbub 等人[38]提出一种基于光流分析和随机抽样一致(Random sample consensus,RANSAC)算法的运动特征表示方法,该方法通过光流本身的性质来体现运动特征,然后利用 RANSAC算法过滤掉场景中不需要的感兴趣点,保留与人体动作相关的点。通过这种方式估计视频帧内的人体面积,并将该区域分割成许多较小的区域,然后记录帧到帧之间每块小区域兴趣点的百分比变化。对执行相同动作不同人重复以上过程,计算最终各个区域块的平均值,最后通过这些平均值构造该动作的特征向量

特征图,兴趣点,特征图,时空


相似性度量的新型动作识别方法,该方法使用动作的单个示例来作为查询对象进行相关动作匹配,通过计算目标视频与查询视频时空立方体之间的相似性来完成动作的分类。图2.3 时空兴趣点图和3D 变换后的特征图片轨迹特征是指用坐标轨迹的形式描述视频中人体运动所发生的位置变化。虽然在轨迹特征之前很多在图像领域取得成功的特征提取算法在视频方面也取得了成功,但是从视频的序列性角度出发,二维或是一维空间的特征提取算法在三维视频方面必定存在较大欠缺,所以基于序列轨迹的视频特征提取算法的出现时必然的。早期Matikainen等人[42]就提出了一种基于跟踪特征的量化轨迹片段技术,通过这种技术对视频进行量化跟踪生成轨迹特征,在Hollywood[43]动作识别数据库上的效果要好于基于光流特征的算法。Sun等人[44]基于兴趣点上下文、轨迹内上下文、轨迹间上下文三个层次的特征进行建模抽取时空特征并最终HOHA[43]和LSCOM[45]数据库上取得了较大成功。受到这些轨迹算法的影响以及密集抽样[46, 47]在图像识别领域所获得成功,Heng Wang等人在文献[48]中提出了一种新的视频特征——稠密轨迹特征(Dense Trajectories,DT)

【参考文献】:
期刊论文
[1]行为识别中一种基于融合特征的改进VLAD编码方法[J]. 罗会兰,王婵娟.  电子学报. 2019(01)
[2]基于3D人体骨架的动作识别[J]. 张友梅,常发亮,刘洪彬.  电子学报. 2017(04)
[3]基于改进深层网络的人脸识别算法[J]. 李倩玉,蒋建国,齐美彬.  电子学报. 2017(03)
[4]自然环境下日常动作的在线识别[J]. 曹媛媛,黄飞跃,陶霖密,徐光祐.  电子学报. 2009(S1)



本文编号:3099506

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3099506.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f42d4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com