视频序列中的人体动作识别
发布时间:2017-12-09 16:39
本文关键词:视频序列中的人体动作识别
更多相关文章: 人体动作识别 时空兴趣点 稀疏编码 图模型 多模态
【摘要】:近年来,人体动作识别作为视频分析方向的一个热门研究课题,已经广泛应用在智能监控、娱乐环境、医疗保健等领域,得到了众多研究者的关注。本文围绕着视频中人体动作识别的核心技术,针对现存方法存在的一些问题,提出了一些改进措施。本文的主要创新点如下:1)提出了一种新的时空兴趣点提取算法。目前用于动作识别的兴趣点提取算法有稀疏兴趣点提取算法和密集采样法。前者在实际场景中存在相机运动、复杂背景的情况下,所提取的点过于稀少,无法提供足够的描述动作的信息;而后者多尺度等间隔的提取像素点作为兴趣点,等同的对待背景点和前景点,不仅大大增加了计算量,尤其当前景人物较小时,提取的兴趣点大都是背景点,影响了判别性。针对这些问题,我们提出了一种基于旋度的时空兴趣点提取算法,能够自动提取出运动前景的关键部位。我们的兴趣点提取算法基于光流微分,可抑制大部分的相机平移运动。其次,当光流计算出来后,我们的方法只需要计算光流微分减法,因此计算速度很快。再次,所提的兴趣点是集中在局部关键部位的密集点群,这使得我们可以采用随机大小的窗口来计算特征,避免了大多数算法所必须的多尺度遍历,在获得一定程度的尺度不变性的同时,减轻了计算量。在多个动作数据库的实验表明,在保持与目前最好的密集采样方法具有可比性性能的基础上,我们的特征提取时间缩短了一半以上,达到了识别性能与计算复杂度之间很好的折中。2)提出了一种新的稀疏编码模型,可以提供更具判别性的特征描述。传统的稀疏表示需要在整组基内解l1-范数优化问题,计算量大。此外,由于单纯的追求稀疏度,样本可能由字典中完全不同类别的子集描述,导致相似的样本得到差异非常大的编码特征,影响了分类的效果。基于此,我们提出了一种带有非负和局部约束的稀疏编码模型。非负约束保证每个样本点处于其邻域样本组成的凸包中;局部约束的加入,使得样本仅用与其相关的基元素表示,并且大大减少了计算复杂度;稀疏性约束则保证所求的解是自动稀疏性的。相比于经典的稀疏编码模型,所提模型可以更好地捕获数据的全局子空间结构,提高了模型的判别性;与局部约束线性编码模型相比,我们的模型对噪声更具鲁棒性。在三个数据库上的实验均体现了我们所提的模型在动作识别任务上的优势。3)鉴于日益增加的可用的无标签数据,我们提出了一种新的鲁棒且具判别性的图模型,用于进行半监督学习以提升动作识别的性能。现存的分类方法大都是基于强监督的,为了取得较好的分类性能,需要大量的有标签数据以便较好的训练出模型参数。但是,数据标注是个非常繁重的工作,尤其是对于视频来说。图模型可以充分利用有限的带标签及大量的无标签数据,能够捕获数据的全局结构,已经成功应用到多种机器学习任务中。建图是基于图的算法中最关键的一步。建图方法包括传统的KNN (K Nearest Neighbor)、£-球(ε-ball)及目前较为流行的稀疏图(或称l1-图)。但是这些方法都通过欧氏距离度量数据间的关系,当复杂的数据结构存在于一个弯曲的流场时,欧式距离不再是一个合适的度量方式。此外,传统的建图方法大都使用单个模态或多模态串联的方式,没有充分利用各个模态的特殊信息。基于此,我们提出了一种多模态的共享系数稀疏图模型:首先根据类标签信息,将各模态数据分别投影到各自的马氏空间,拉大类间距离,缩小类内距离,增强模型的判别性;此外,使用共享系数的多模态图对数据进行稀疏表示,在充分利用多种模态包含的动作的多方面信息的同时,通过共享稀疏系数的方式排除了噪声,增强了模型的鲁棒性。我们在多个复杂数据库中进行了大量的实验,均验证了所提模型优于目前最好的方法。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
,
本文编号:1271120
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1271120.html