基于时空特征的视频行为识别

发布时间:2021-11-16 05:46
  随着智能监控和视频获取设备的普及,视频中的行为识别由于其巨大的应用前景和经济价值成为计算机视觉领域的研究热点。而深度学习方法在图像处理任务中的成功应用,也激励了基于深度学习的视频行为识别方法的发展。视频行为识别的研究目的在于通过对人体行为的特征提取和深度神经网络的学习使得计算机能够自主识别视频中的人体行为,从而可以应用于智能监控、视频检索、人机交互等领域。不同于图像分析,视频中时序结构导致了更加丰富的类内与类间差异,增加了行为识别的难度。本文针对如何提取更具代表力的时空特征分别从视频采样方法、图像特征编码、时序特征学习三个方面展开了研究,主要工作如下:1)针对当前的视频行为识别方法对视频稀疏采样的过程中采用的随机采样策略容易错失视频中的关键信息,提出了基于关键帧采样的行为识别方法。该方法在卷积神经网络的训练过程中,依然采用随机采样的策略以保证特征提取的多样性,在测试阶段,则采用关键帧采样策略,通过对视频均匀分段并提取每段中信息熵最大的视频帧作为关键帧来保证神经网络能够最大化地学习视频中的信息。实验通过在时序分割网络、高效卷积网络两种网络结构中使用关键帧采样策略提高了UCF101和HMD... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:80 页

【学位级别】:硕士

【部分图文】:

基于时空特征的视频行为识别


人体行为识别应用领域示意图

流程图,行为识别,人体,流程


第一章绪论图1.2人体行为识别流程1.3国内外研究现状在基于机器学习的视频人体行为识别方法中,需要人工设计特征来描述视频信息,而基于深度学习的行为识别大多通过深度神经网络网络来提取特征描述视频信息,因此下文将从人工设计的特征表示、深度学习特征表示两方面来介绍行为识别特征表示的发展。1.3.1基于人工设计的特征表示基于人工设计的特征提取一般是通过人工观察和设计,手工设计出对人体行为进行表征的特征。而行为识别的特征又可以分为全局特征和局部特征两类。1)全局特征全局特征是对检测出来的整个感兴趣的人体进行描述,一般通过背景去除或者目标跟踪的方法得到,通常采用的是人体骨架特征、轮廓特征、光流特征等信息。而这些特征对噪声,部分遮挡、视角的变化比较敏感。Bobick[4]等人最早采用轮廓来描述人体的运动信息,将动作采用MEI(运动能量图)和MHI(运动历史图)静态存储起来,对于新来的测试视频,先计算其MEI和MHI,然后与存储的各运动模板进行匹配,使其马氏距离之和最短,从而达到动作分类的目的。MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这两种特征都是从背景减图中获取的。为了提取剪影信息,Wang[5]等人利用r变换获取了人体的剪影,保持了平移和尺度不变性。之后Souvenir和Babbs[6]将r变换改进,计算了第三维是时间的r变换表面。Hsuan-chen[7]则提取了人体的轮廓,这些轮廓信息是星形骨架描述了参考线与轮廓中心到四肢(头,脚,手)之间的角度。而Wang[8]同时利用剪影信息和轮廓信息来3

框架图,轨迹,框架,算法


东南大学硕士学位论文图2.1密集轨迹算法基本框架到取W=5效果较好。下一步的目标即在时间序列上跟踪这些特征点,但在缺乏变化的区域(例如一块白色墙壁中间的点)中跟踪特征点是无法实现的。因此在进行跟踪前要先去除一些特征点。此处的方法是计算每个像素点自相关矩阵的特征值,并设置阈值去除低于阈值的特征点,其中根据每一帧I的特征值来设定阈值,阈值计算公式如下所示:T=0.001×maxi∈Imin(λ1i,λ2i)(2.1)其中,(λ1i,λ2i)为图像I中像素点i的特征值,0.001为实验确定的一个比较合适的值。b.轨迹跟踪设密集采样得到的某个特征点的坐标为Pt=(xt,yt),则该特征点在下一帧图像中的位置可由式(2.2)得到:Pt+1=(xt+1,yt+1)=(xt,yt)+(Mωt)|xt,yt(2.2)该式是通过计算特征点邻域内的光流中值来得到特征点的运动方向的。式中ωt=(ut,vt)为密集光流场,是由It和It+1计算得到的,u和v分别代表光流的水平和垂直分量。而M则代表中值滤波器,尺寸为3×3。某个特征点在连续的L帧图像上的位置即构成了一段轨迹(Pt,Pt+1,...,Pt+L),后续的特征提取即沿着各个轨迹进行。由于特征点的跟踪存在漂移现象,故长时间的跟踪是不可靠的,所以每L帧要重新密集采样一次特征点,重新进行跟踪。在DT/iDT算法中,选取L=15。c.特征提取DT/iDT中使用了HOF,HOG和MBH三种特征来描述光流。HOG特征计算的是灰度图像梯度的直方图,HOF计算的是光流(包括方向和幅度信息)的直方图,MBH计算的是光流图像梯度的直方图,也可以理解为在光流图像上计算的HOG特征。特征提取过程中需要沿着某个特征点的长度为L的轨迹,在每帧图像上取特征点周围的大10

【参考文献】:
期刊论文
[1]图像和视频亮度的自动调整[J]. 王想,郭延文,杜振龙,武港山,张福炎,彭群生.  电子学报. 2009(S1)
[2]基于视觉的人的运动识别综述[J]. 杜友田,陈峰,徐文立,李永彬.  电子学报. 2007(01)
[3]一种基于视频聚类的关键帧提取方法[J]. 朱映映,周洞汝.  计算机工程. 2004(04)



本文编号:3498269

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3498269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户53cfc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com