基于图卷积神经网络的人体动作识别研究

发布时间:2021-10-15 04:39
  人体动作识别的主要目标是让机器能够从图像或视频中自动地识别人类的动作行为,其在视频监控、医疗保健、智能家居和人机交互等方面具有广泛的应用前景。人体可以被视为由枢纽关节连接刚性骨骼而成的铰接系统,其动作主要反映在三维空间中的骨架运动上,且骨架信息对尺度、光照和视角等变化具有很强的鲁棒性。因此,基于骨架的动作识别已经成为计算机视觉和模式识别研究领域中一个备受关注的课题。本文针对骨架动作识别任务,结合图模型理论和深度学习方法,围绕骨架数据的鲁棒空间特征提取、时序运动信息建模和动作相关部位捕捉等三个关键问题开展了深入研究。具体而言,本文的主要工作如下:(1)提出了一种受注意力机制启发的图卷积神经网络,可有效提取骨架数据的空间结构特征并捕捉与动作相关的显著运动单元。首先,为了从结构不规则的骨架数据中提取深度特征,利用图将骨架数据进行结构化表示,并引入谱图滤波机制灵活地实现了高效的图卷积运算。其次,为了检测对区分动作具有重要作用的动作单元,设计了新的动作关注层,该层还有助于提取高判别性的特征。最后,为了建模骨架的时序运动模式,使用了递归神经网络单元。如此,构成了一个端到端的深度神经网络模型。(2)... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:80 页

【学位级别】:硕士

【部分图文】:

基于图卷积神经网络的人体动作识别研究


Florence3D数据库样例展示

光学图,数据库,光学,场景


东南大学硕士学位论文8展示了Florence3D数据库的部分样例,第1~3行分别为“从瓶子里喝水”、“接听电话”和“看手表”,直观上看,这三个动作样本之间的差异极小,难以区分。图1-2Florence3D数据库样例展示1.3.1.2HDM05数据库3HDM05数据库(MocapDatabaseHDM05)的建立利用了Vicon光学运动捕捉系统(OpticalMotionCaptureSystems),每个骨架数据由31个关节的三维坐标表示,累计收集了2337个动作序列,采集场景如图1-3所示。这些动作序列由5个名为“bd”、“bk”、“dg”、“mm”和“tr”的非专业表演者完成,涵盖了5大类日常动作类别:(1)散步、跑步和跳跃;(2)抓取和放置;(3)体育运动;(4)坐下和躺下;(5)混杂动作。上述5大类日常动作又根据动作意图、动作部位、重复次数、持续时间等不同标准细分成130类(例如,向椅子或桌子走3步、左手或右手挥5秒、左拳前向击1次或2次等)。据我们所知,HDM05是目前为止包含动作类别数量最多的骨架动作识别数据库。由于类内差异大、动作种类多,该数据库在动作识别中极具挑战性。图1-3HDM05数据库采集场景(Vicon光学运动捕捉系统)[36]3http://resources.mpi-inf.mpg.de/HDM05/

数据库,动作识别,骨架,视角


腗icrosoftKinectv2体感器进行同时捕获,包含60种不同的动作类别,涵盖读书、握手、头痛等日常动作、交互动作和医学条件下的行为。这些动作由年龄在10~35岁之间的40名被试表演完成,每个骨架由25个关节的三维坐标表示。如图1-4所示,为NTURGB+D数据库中的“喝水(drinkwater)”动作样例,从左到右为同一时刻三个不同视角下的动作状态。据我们所知,该数据库是目前最大的骨架动作识别数据库。较大的类内差异和视角变化使得该数据库极具挑战性。与此同时,样本量的显著增加也为当前基于骨架的动作识别方法带来了新的挑战。图1-4NTURGB+D数据库样例展示4http://www.uow.edu.au/~jz960/datasets/combined.html5http://rose1.ntu.edu.sg/datasets/actionrecognition.asp


本文编号:3437436

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3437436.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户34b4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com