当前位置:主页 > 科技论文 > 自动化论文 >

基于深度神经网络的人体行为识别研究

发布时间:2021-11-12 19:38
  人体的行为识别是计算机视觉领域的一个重要问题,有着极大的应用范围。比如人机交互、安全防护、多媒体的视频理解和虚拟现实等。伴随着大规模人体行为数据集的获得和硬件计算能力的进步,以深度神经网络为代表的深度学习技术有了长足发展,在一些计算机视觉问题上取得了以往传统方法所不能达到的性能,然而现有方法仍有一些的局限。结合实际应用需求,本文针对人体行为识别中如下两个方向进行展开:(1)基于RGB视频的二维人体行为识别研究;(2)基于骨架坐标点云的三维人体行为识别研究。主要的研究工作和贡献如下:(1)基于RGB视频的二维人体行为识别研究针对2D行为视频中存在时间和空间两个维度的信息,设计了一种二维卷积神经网络(Convolution Neural Networks,CNN)和双流的长短时记忆模型(Long-Short Term Memory,LSTM)相结合的方法,能够同时对时间信息和空间信息进行建模。针对RGB视频中背景信息过于冗杂、人体运动信息不够凸显的问题,设计了一种全新的跨时空注意力机制,该机制经过训练之后,可以对一个行为视频中不同时间帧和同一帧上不同的位置进行关注,能够学习到对行为类别价值... 

【文章来源】:广西师范大学广西壮族自治区

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于深度神经网络的人体行为识别研究


来自YouTube网站的弹吉他和跑步视频截图

监控室,视频


图 1-1 来自 YouTube 网站的弹吉他和跑步视频截图比如在地铁、超市或火车站等人员密集的场所,为了安防需要布置了大量的摄像摄像头记录了大量的视频资料,包含了各式各样的人体行为。但对于分析理解这内容,人们还处于较为初级的方法,我们时常听到一些报道:某个公安部门为了频中搜查罪犯,发动全部门的人员来肉眼查看监控视频。这样的做法是耗时耗究表明人类对着屏幕的有效精力集中的时间只有十几分钟,超出了便会头昏脑胀降等生理问题。因此如何有效分析理解这些多媒体资料,对计算机视觉技术新的2 为某地的监控视频截图和监控室。

示意图,摄像头,三维坐标,微软


第 1 章 绪论内存空间,在人机交互方面并不能很好地提供实时的要求。一些科技巨头公司推三维深度摄像头来改进这些问题,比如微软公司在 2010 年推出了 Kinect 摄像头时拍摄二维的 RGB 视频、3D 的深度视频和三维的人体骨架坐标点云。由深度摄的人体 3D 坐标点云具有内存小、无背景干扰等优点,迅速成为了一些的人体交主流选择。如何分析这些三维点云信息成了解决人体行为识别的关键。图 1-3 即inect 深度摄像头与人体骨架三维坐标的获取示意图。

【参考文献】:
期刊论文
[1]Saliency guided local and global descriptors for effective action recognition[J]. Ashwan Abdulmunem,Yu-Kun Lai,Xianfang Sun.  Computational Visual Media. 2016(01)

博士论文
[1]视频中人体行为识别若干问题研究[D]. 裴利沈.电子科技大学 2016



本文编号:3491535

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3491535.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1a119***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com