基于3D卷积神经网络的人体动作识别方法研究
发布时间:2021-07-28 06:49
基于视频的人体动作识别,作为近些年来视觉领域中一个热门的研究课题,被广泛用于智能人机交互和虚拟现实、智能视频监控和基于内容的视频检索、智慧医疗和看护等领域。然而在杂乱背景、遮挡和光照变化等现实环境下,如何从复杂、多变的人体动作中提取更加鲁棒性的特征,是动作识别领域中的一个研究难点。传统方法通常需要手工设计特征,并依赖足够的先验知识来取得较高的动作识别率。得益于CNN在图像分类、目标检测等视觉任务上的成功适用,许多优秀的深度学习方法也逐渐用于动作识别研究,并取得一些重大进展。本文基于3D CNN架构对动作识别进行深入研究,主要工作内容如下:(1)针对现有的3D CNN架构,因其模型复杂度高而导致难以学习更加丰富、抽象的深层特征,提出了轻量级多尺度卷积模型。该模型通过在3D卷积残差网络中嵌入轻量级多尺度卷积模块来增加每层网络中的局部感受野范围,在显著减少模型复杂度的同时,还提取了目标在细粒级别上的多尺度特征,显著增强了对目标的表征能力。最后,利用通道注意力机制对多尺度特征进行关键特征提取。实验结果表明,本文模型取得了较高的动作识别率。(2)考虑到RGB图像含有丰富的外观信息,能够很好的对人...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
动作识别技术的部分应用场景智能人机交互和虚拟现实
安徽大学硕士学位论文3需要足够的先验知识来支撑,才能达到较高的动作识别率。根据所提取特征类型的不同,又可将基于传统的动作识别方法分为基于人体几何形状的方法、基于运动信息的方法以及基于时空兴趣点的方法。而基于深度学习的动作识别则是一种端到端的方法,能够直接从原始RGB视频序列中自动学习相关特征并用于动作分类,依据网络结构的不同,主要分为基于双流卷积神经网络的动作识别方法、基于3D卷积神经网络的动作识别方法以及基于长短时记忆网络的动作识别方法。图1.2人体动作识别的一般流程随着性价比高的深度摄像头(如Kinect)的出现和应用,基于RGB-D数据的人体动作识别也逐渐发展起来。相比较RGB数据而言,RGB-D数据具有不易受光照、背景等因素影响的特点。基于RGB-D数据的动作识别方法依据所使用数据类型的不同,可分为基于深度图像的方法、基于骨骼数据的方法以及基于多特征融合的方法。如图1.3所示,展示了目前比较主流的动作识别方法。而这些研究方法的详细阐述将会在本文的第2章进行展开介绍。基于人体几何形状基于运动信息基于时空兴趣点基于双流卷积神经网络基于3D卷积神经网络基于长短期记忆网络基于传统的动作识别方法基于深度学习的动作识别方法基于深度图像基于骨骼数据基于多特征融合基于RGB-D数据的动作识别方法基于RGB数据的动作识别方法人体动作识别图1.3目前比较主流的动作识别研究方法
安徽大学硕士学位论文15个视频又可分割为4个子片段,因此KTH数据集一共有2391个视频片段,视频分辨率均为160*120,平均时长为4s。如图2.1所示,显示了在4种场景下完成的6类动作,从左到右依次是走路、慢跑、快跑、出拳、挥手以及拍手动作,从上到下依次是尺度变化的s1和s2场景、以及衣着变化的s3和s4场景。图2.1KTH数据集的动作类别Weizmann数据集由以色列Weizmanninstitute于2005年发布,由9个人表现10类动作,共计90个样本,视频分辨率均为180*144。如图2.2所示,第一排依次是双臂挥手、弯腰、跳跃、跑步以及走路动作。第二排依次是单臂挥手、向前跳跃、向上跳跃、侧身跑步以及单脚跑动作。由于该数据集样本数量较少,因此比较适合迁移学习或者小样本学习。KTH和Weizmann均是早期经典的动作识别数据集,也是目前文献引用率最高的两个数据集。但是这两个数据集有很大的局限性,一是在简单背景下表现单一动作,二是相机拍摄角度相对固定,这与真实场景相差甚远。图2.2Weizmann数据集的动作类别(2)Hollywood2[57]数据集法国IRISA研究院于2008年发布了Hollywood数据集,包含了8类动作,共计475个视频,但是该数据集是在场景受控的环境下进行拍摄的,同时样本数量较少。于是IRISA研究院便在2009年发布了Hollywood2数据集,包含了10个不同场景下
【参考文献】:
期刊论文
[1]基于Bi-LSTM-Attention模型的人体行为识别算法[J]. 朱铭康,卢先领. 激光与光电子学进展. 2019(15)
[2]人体动作行为识别研究综述[J]. 李瑞峰,王亮亮,王珂. 模式识别与人工智能. 2014(01)
[3]漫谈“智慧医疗”[J]. 曹剑峰,范启勇. 上海信息化. 2011(03)
本文编号:3307447
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
动作识别技术的部分应用场景智能人机交互和虚拟现实
安徽大学硕士学位论文3需要足够的先验知识来支撑,才能达到较高的动作识别率。根据所提取特征类型的不同,又可将基于传统的动作识别方法分为基于人体几何形状的方法、基于运动信息的方法以及基于时空兴趣点的方法。而基于深度学习的动作识别则是一种端到端的方法,能够直接从原始RGB视频序列中自动学习相关特征并用于动作分类,依据网络结构的不同,主要分为基于双流卷积神经网络的动作识别方法、基于3D卷积神经网络的动作识别方法以及基于长短时记忆网络的动作识别方法。图1.2人体动作识别的一般流程随着性价比高的深度摄像头(如Kinect)的出现和应用,基于RGB-D数据的人体动作识别也逐渐发展起来。相比较RGB数据而言,RGB-D数据具有不易受光照、背景等因素影响的特点。基于RGB-D数据的动作识别方法依据所使用数据类型的不同,可分为基于深度图像的方法、基于骨骼数据的方法以及基于多特征融合的方法。如图1.3所示,展示了目前比较主流的动作识别方法。而这些研究方法的详细阐述将会在本文的第2章进行展开介绍。基于人体几何形状基于运动信息基于时空兴趣点基于双流卷积神经网络基于3D卷积神经网络基于长短期记忆网络基于传统的动作识别方法基于深度学习的动作识别方法基于深度图像基于骨骼数据基于多特征融合基于RGB-D数据的动作识别方法基于RGB数据的动作识别方法人体动作识别图1.3目前比较主流的动作识别研究方法
安徽大学硕士学位论文15个视频又可分割为4个子片段,因此KTH数据集一共有2391个视频片段,视频分辨率均为160*120,平均时长为4s。如图2.1所示,显示了在4种场景下完成的6类动作,从左到右依次是走路、慢跑、快跑、出拳、挥手以及拍手动作,从上到下依次是尺度变化的s1和s2场景、以及衣着变化的s3和s4场景。图2.1KTH数据集的动作类别Weizmann数据集由以色列Weizmanninstitute于2005年发布,由9个人表现10类动作,共计90个样本,视频分辨率均为180*144。如图2.2所示,第一排依次是双臂挥手、弯腰、跳跃、跑步以及走路动作。第二排依次是单臂挥手、向前跳跃、向上跳跃、侧身跑步以及单脚跑动作。由于该数据集样本数量较少,因此比较适合迁移学习或者小样本学习。KTH和Weizmann均是早期经典的动作识别数据集,也是目前文献引用率最高的两个数据集。但是这两个数据集有很大的局限性,一是在简单背景下表现单一动作,二是相机拍摄角度相对固定,这与真实场景相差甚远。图2.2Weizmann数据集的动作类别(2)Hollywood2[57]数据集法国IRISA研究院于2008年发布了Hollywood数据集,包含了8类动作,共计475个视频,但是该数据集是在场景受控的环境下进行拍摄的,同时样本数量较少。于是IRISA研究院便在2009年发布了Hollywood2数据集,包含了10个不同场景下
【参考文献】:
期刊论文
[1]基于Bi-LSTM-Attention模型的人体行为识别算法[J]. 朱铭康,卢先领. 激光与光电子学进展. 2019(15)
[2]人体动作行为识别研究综述[J]. 李瑞峰,王亮亮,王珂. 模式识别与人工智能. 2014(01)
[3]漫谈“智慧医疗”[J]. 曹剑峰,范启勇. 上海信息化. 2011(03)
本文编号:3307447
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3307447.html
最近更新
教材专著