姿态自适应的人体行为识别研究

发布时间:2022-02-14 13:58
  基于静态图像的人体行为识别是计算机视觉的主要研究方向之一,其研究的目标是给定一幅静态图像,识别出图像中的人物主体在做什么。静态图像的人体行为识别方法可分为两大类:一是将其视为一般的图像分类问题,即不考虑人体行为独有的特性对图像直接进行分类;二是通过挖掘和行为相关的关键因素(如人体姿态、物体和场景等)来获得更有效的行为特征,从而进行识别。深度神经网络的出现,使计算机视觉各个领域的性能都大幅度提升,同样,也使基于静态图像的人体行为识别更加满足实际应用需求。但由于拍摄视角、人在执行同一行为时的姿态多样性等因素,使人体行为在二维静态图像上呈现出的外观特征复杂多样,从而使该识别问题变的非常困难。本文从三个角度来解决这一问题:一是将其视为一般的图像分类问题,借助稀疏编码和字典学习方法增强图像局部特征的表示能力;二是建模和行为相关的场景、姿态关键因素,借助深度学习方法进一步增强图像表示能力;三是利用视频序列为静态图像补充动态信息,丰富静态图像的行为表示。最后,将该课题和实际应用相结合,研究其在移动端的优化及部署方式。本文主要工作和贡献如下:(1)针对传统字典学习方法使用基于主成分分析降维的空间金字塔... 

【文章来源】:东南大学江苏省211工程院校985工程院校教育部直属院校

【文章页数】:132 页

【学位级别】:博士

【部分图文】:

姿态自适应的人体行为识别研究


本文章节组织结构框图

类别,行为,字典,滑动窗口


第二章基于字典学习和稀疏编码的行为识别13一个类别,监督式稀疏编码(SSC:SupervisedSparseCoding)从近邻模板特征中选择属于同一个类别最多的模板特征进行编码。获得局部描述子的编码系数后,通常使用池化技术来获得局部区域或者整幅图像的表示,但是不同区域的特征具有不同的判别能力,因此,本章节提出一种基于滑动窗口特征的具有判别能力的加权模型,将加权系数引入到最大间距模型中,并使用多核学习框架(MultipleKernelLearning)来求解模型参数和加权系数。(a)红色部分的“小腿”具有非常相似的姿势,但属于不同的行为类别(b)非监督稀疏编码(USC:UnsupervisedSparseCoding)和本章节提出的监督稀疏编码(SSC:SupervisedSparseCoding)对比图2.2图示说明相近的局部描述子分属于不同的行为类别(a)和本章节提出的监督式稀疏编码算法(b)本章节提出的监督式字典学习和判别式加权模型的流程图如图2.3所示。首先从所有训练图像中提取稠密的SIFT描述子,然后从这些描述子中随机选取一部分作为模板特征送入到本章节提出的局部Fisher判别字典学习算法中;在获得学习到的字典后,通过提出的监督式稀疏编码算法获取所有SIFT描述子的编码特征,进而根据这些编码特征,采用滑动窗口的方式获得整幅图像的表示;最后,使用提出的基于多核学习框架的判别式加权模型,获得不同滑动窗口特征的加权系数和模型参数。本章节的主要工作可总结为以下几点:

字典,学习算法


第二章基于字典学习和稀疏编码的行为识别15图2.4基于全局表示的监督式字典学习和基于局部描述子的监督式字典学习算法对比2.2.1基于全局表示的字典学习Jiang等人[67]提出一种标签一致的K-SVD(LC-KSVD)字典学习算法,该算法在目标函数中引入一种叫做“判别稀疏编码误差”的标签限制项,同时考虑重构误差和分类误差;Li等人[68]为了提高编码系数的判别能力,在目标函数中引入Fisher判别函数,同时引入低秩正则化项降低训练样本中噪声的影响;以数字和纹理识别为任务,Mairal等人[69]提出同时创建共用字典和每个类别独有的字典来进行稀疏编码;为了应对人脸识别中某些个体只有少数甚至一个训练样本的情况,Deng等人[70]提出使用一个辅助的类内变换字典来建模训练样本和测试样本之间可能的变化特性;Wang等人[71]通过引入相似性限制项和字典非凝聚项提出一种新的稀疏模型,用于捕获相似样本之间的相关性,同时促使和不同类别相关的字典元素相互独立;Wang等人[72]提出直接学习每个类别的字典以捕获特殊性,同时学习一个共有模式字典捕获一般性,该共有模式字典被所有类别共享,特殊性使字典具有区分不同类别的能力,共性只为了得到有效的数据表示;为了直接得到基于稀疏表示的分类器,Zhang等人[73]提出直接从原始数据中学习判别式投影和字典。基于全局表示的字典学习的一个基本步骤是首先将一幅图像表示成一个列向量,然后将图像类别赋予该列向量,带有正则化项或判别项的目标函数通常都是基于这些列向量表示提出的。上述的大部分工作都是先用K均值聚类算法得到字典,然后提取图像的空间金字塔特征,再对该特征进行降维操作得到最终的图像表示,最后用该特征表示进行字典学习。然而,将一整幅图像通过非监督的方式得到一个列向?

【参考文献】:
期刊论文
[1]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵.  自动化学报. 2016(06)
[2]人体动作行为识别研究综述[J]. 李瑞峰,王亮亮,王珂.  模式识别与人工智能. 2014(01)
[3]动作识别与行为理解综述[J]. 徐光祐,曹媛媛.  中国图象图形学报. 2009(02)



本文编号:3624688

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3624688.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户76ec5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com