基于视频的人体行为识别技术研究
发布时间:2021-01-05 13:37
人体行为识别一直是计算机视觉研究的热点,被广泛应用于医疗康复训练、智慧交通、人机交互等众多领域,应用前景非常广泛,具有很大的研究价值。但由于视频维度较高、处理比较复杂,且模型识别精度不高等特点,需要提出了相应的策略进行改进。本文针对LRCN和双流网络,提出了两种网络模型结构,一种是在LRCN的基础上提出的比较简单的串联式网络,另一种是在双流网络的基础上,提出了一种融合策略以及提取全局时间信息的方法。本文的主要工作如下:(1)总结并分析了人体行为识别的数据集和常用方法,并进行了一定的归类处理。并对深度学习的一些常用基础理论知识进行了一定的总结归纳。(2)在LRCN的基础上,提出了一种基于CNN、Bi-LSTM、MLP的串联式网络架构的人体行为识别方法。在视频预处理时采用了平均稀疏下采样的方法,可以有效的解决视频无法直接输入卷积的问题,同时又能有效的降低时间复杂度,减少模型训练和前向传播的时间,另外,区别于其他模型仅使用LSTM,采用Bi-LSTM能同时学习到视频序列的“顺序”和“逆序”信息。(3)在双流网络的基础上,提出了一种基于双流网络和Bi-GRU的并联式网络架构的人体行为识别方法,...
【文章来源】:广东工业大学广东省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
视频中的运动轨迹示意图
第一章 绪论3 基于深度学习的人体行为识别人工特征并不能保证能够提取视频中足够多的有效信息,而深度学习的在于:不在视频中定义特征并提取定义的人工特征,让模型自己从原学习有价值的信息。当然深度学习方法[22]也会适当引入一些人工特征些信息的不足,从效果上而言,该方法一般优于传统方法,目前成为流方向。由于深度学习中提取图视频的空间信息比较简单,使用卷积即可实现,的研究点在于如何有效提取视频中的时间信息,并且如何把时间信息息进行融合也是该方向研究的重点内容。从模型的网络结构看,可以型分为串联式网络和并联式网络,这有点像电路的串联和并联。
广东工业大学硕士学位论文。Wang X 等人[48]采用 3D-CNN 提取时间信息,再使用 LSTM 进行融合。不于 3D-CNN 的行为识别最经典的模型是 Du Tran 等人[49]提出的 C3D,但是由-CNN 只能获取固定长度的时间信息,不能提取整个视频的时间信息,所以很大的发展空间。另一种非标准的串联式网络是 Karpathy A 等人[50]提出来单的采用 CNN 提取时间信息,但是为了提取空间信息,提出了晚融合、早和慢融合策略,不过这种方法相比于上述两种方法精度低,优势不大,属期探索的一种网络模型。
【参考文献】:
期刊论文
[1]基于视觉的人体行为识别算法研究综述[J]. 陈煜平,邱卫根. 计算机应用研究. 2019(07)
本文编号:2958762
【文章来源】:广东工业大学广东省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
视频中的运动轨迹示意图
第一章 绪论3 基于深度学习的人体行为识别人工特征并不能保证能够提取视频中足够多的有效信息,而深度学习的在于:不在视频中定义特征并提取定义的人工特征,让模型自己从原学习有价值的信息。当然深度学习方法[22]也会适当引入一些人工特征些信息的不足,从效果上而言,该方法一般优于传统方法,目前成为流方向。由于深度学习中提取图视频的空间信息比较简单,使用卷积即可实现,的研究点在于如何有效提取视频中的时间信息,并且如何把时间信息息进行融合也是该方向研究的重点内容。从模型的网络结构看,可以型分为串联式网络和并联式网络,这有点像电路的串联和并联。
广东工业大学硕士学位论文。Wang X 等人[48]采用 3D-CNN 提取时间信息,再使用 LSTM 进行融合。不于 3D-CNN 的行为识别最经典的模型是 Du Tran 等人[49]提出的 C3D,但是由-CNN 只能获取固定长度的时间信息,不能提取整个视频的时间信息,所以很大的发展空间。另一种非标准的串联式网络是 Karpathy A 等人[50]提出来单的采用 CNN 提取时间信息,但是为了提取空间信息,提出了晚融合、早和慢融合策略,不过这种方法相比于上述两种方法精度低,优势不大,属期探索的一种网络模型。
【参考文献】:
期刊论文
[1]基于视觉的人体行为识别算法研究综述[J]. 陈煜平,邱卫根. 计算机应用研究. 2019(07)
本文编号:2958762
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2958762.html
最近更新
教材专著