基于RGB-D图像序列的人体行为识别研究

发布时间:2021-08-09 11:01
  人体行为识别在智能监控、人机交互、虚拟现实、视频检索等方面有广泛的应用前景,而受到学术界和工业界的广泛关注。传统的基于可见光(RGB)图像序列的人体行为识别极易受到光照变化、阴影以及复杂背景等因素的干扰。随着价格低廉以及容易操作的彩色-深度(RGB-D)摄像机(Kinect)出现,越来越多研究学者将Kinect所采集的深度(Depth)图像用于人体行为识别研究。与RGB图像相比,Depth图像对光照、阴影以及其它环境变化不敏感,但是Depth图像缺乏足够的颜色、纹理信息。因此,利用RGB和Depth图像之间的互补特性能够显著提高人体行为识别的精度和鲁棒性。而RGB和Depth图像的结合也为人体行为识别带来新的挑战,如不同模态图像之间潜在的语义关联性、互补性以及它们的显著差异性、表达内容多样性等。面对以上挑战,国内外研究学者围绕RGB和Depth图像的融合开展人体行为识别的研究。然而,现有的行为识别方法仍存在以下问题:(1)传统底层特征方法由于需要人工设计,使得其对行为数据拍摄场景、光照、姿态等因素的泛化能力不足,同时由于不同模态图像表现差异,使得RGB底层特征对Depth图像中目标的纹... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:143 页

【学位级别】:博士

【部分图文】:

基于RGB-D图像序列的人体行为识别研究


图1-1由Kinect采集的MSR?Daily?Activity?3D数据集中的RGB和深度图像示例??鉴于以上三点,基于深度摄像机所获取的传统可见光图像、深度图像以及人??

框架图,行为识别,人体,框架


?为识别[7]、基于骨骼数据的人体行为识别[8]以及融合多模态数据的人体行为识别??[9,1()]等。而根据不同的行为特征提取与表征方法,又可以将行为识别算法分为基??于传统机器学习和深度学习[1(),11]的人体行为识别方法。为了论文后续的深入研究,??下面分别从RGB图像、Depth图像以及两者的融合来介绍国内外学者在人体行??为识别领域的一些代表性工作。??人体行为序列???行为特征提取???行为特征表达???行为分类/识别??iVS!?\?MM\?I、工二t?I??图1-2人体行为识别一般框架??1.2.2基于RGB图像的人体行为识别方法??在人体行为识别的研究前期,大部分的研究都是基于RGB图像序列。而基??于RGB图像的人体行为识别方法又可以分为基于全局、局部特征的传统行为识??别方法和基于深度学习的行为识别方法。本小节从这两类方法出发对己有的研究??成果进行简要回顾。??(1)基于传统人工设计特征的行为识别方法。在深度学习技术没有表现出其??强大的辨识能力之前,基于人工设计特征的方法在行为识别研宄领域中占据主导??地位,并产生了大量研究成果。这些成果主要集中在人体行为识别的特征提娶??特征表达以及分类识别三个阶段。??a)特征提龋在行为识别的过程中,常提取的特征有全局特征和局部特征。??其中,全局特征通过背景建模、前景分割等方法获取视频中的人体前景目标,然??后提取人体前景目标的外观或运动信息用来描述人体行为。常用的全局特征有人??体轮廓特征[12],时空形状特征[13],形状-运动特征[14]等。全局特征的提取严重依??赖于背景建模、人体前景提取以及人体追踪算法,对光照变化、拍摄视角以及遮?

框架图,行为识别,人体,框架


目前,基于密集采样得到的视频局部改进密集轨迹(Improved?Dense?Trajectories,??IDT)[17]以及提取的HOG-HOF,MBH特征描述子已经在复杂的行为识别数据库??上得到良好的识别效果。局部特征的缺点在于不能完成对整个视频的描述,而且??大都是人工设计的不具有普适性。??b)特征表达。在完成视频特征的提取后,尤其是局部特征,需要对这些不同??时空位置的局部特征进行建模,以得到整个视频的描述。其中,BoVW模型[23,24]??是使用最广泛的特征表达模型。图1-3为基于BoVW模型的人体行为识别框架。在??BoVW模型中,首先使用无监督算法对提取的局部特征进行聚类,每个聚类中心??即视为一个词汇,所有词汇则构成一个完整的特征字典。然后使用特征字典对提??取的局部特征进行编码,最后统计所有词汇的出现频率即为整个视频的特征描述。??而在无监督学习生成字典的过程中,主要有两种方式:K-meanS[23]和高斯混合模??型(Gaussian?mixture?model,?GMM)_,这两种方式的区别在于K-means将每个样??本数据分配到某一个聚类中心,而GMM则能给出每个样本数据被分配到每个聚??类中心的概率,从而可以通过设置阈值将每个样本数据分配到多个聚类中心。在??特征编码的过程中,常采用的方法有矢量量化[23,24],VLADP4]以及Fisher向量编??码[25]。这三种方式的主要区别在于前两者只是编码到最近的聚类中心,而后两者??则用样本数据到聚类中心的距离信息代替矢量量化中的字典频率。??;,???}?^?麵...i?;??K-means?:高斯混合模翌??織?榕賴取?理?

【参考文献】:
期刊论文
[1]RGB-D行为识别研究进展及展望[J]. 胡建芳,王熊辉,郑伟诗,赖剑煌.  自动化学报. 2019(05)
[2]视频行为识别综述[J]. 罗会兰,王婵娟,卢飞.  通信学报. 2018(06)
[3]基于深度图像的人体行为识别综述[J]. 孙彬,孔德慧,张雯晖,贾文浩.  北京工业大学学报. 2018(10)
[4]基于多层卷积神经网络特征和双向长短时记忆单元的行为识别(英文)[J]. 葛瑞,王朝晖,徐鑫,季怡,刘纯平,龚声蓉.  控制理论与应用. 2017(06)
[5]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵.  自动化学报. 2016(06)

博士论文
[1]视频中人体行为识别若干问题研究[D]. 裴利沈.电子科技大学 2016
[2]多模态人体行为识别技术研究[D]. 冯银付.浙江大学 2015



本文编号:3331945

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3331945.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ee00***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com