局部时空特征及部件的视频人体动作识别方法研究

发布时间:2017-05-06 05:01

  本文关键词:局部时空特征及部件的视频人体动作识别方法研究,,由笔耕文化传播整理发布。


【摘要】:视频中人体动作识别旨在利用计算机自动分析视频数据,从中提取与人体动作相关的信息,达到分析与理解视频的目的,是计算机视觉领域的一个活跃研究主题,具有广泛的潜在应用场景,如智能视频监控、基于内容的视频分析、智能监护和人机交互等。近年来,人体动作识别研究取得了丰富的研究成果。由于该问题的复杂多样性,已有的研究方法存在着缺点和不足,自动识别人体动作的技术还处在不断探索之中。人体动作识别作为一个分类问题,视频特征提取与表达是有效识别的关键一环。本文从特征提取与表达出发,在已有工作基础上提出新的方法和思路。主要创新点归纳如下:①提出了一种基于上下文结构信息的动作表示方法。词袋模型采用矢量量化技术将局部特征量化至最近邻的视觉单词,产生较大的量化误差。此外,词袋模型对局部特征进行全局统计,忽略了时空兴趣点的时空分布。针对量化误差问题,首先推广后验概率编码框架,基于该框架分析了已有的编码方法。在此基础上,提出一种新的后验概率编码方法。该编码方法编码时不仅考虑了视觉单词与特征向量之间的空间相似性,而且考虑了它们之间的线性相似性,能更好的捕捉丰富的局部流形信息。在该编码方法基础上,计算兴趣点局部上下文范围内兴趣点的空间分布和时间顺序分布,形成累计概率直方图特征,描述兴趣点的时空分布。在多个标准数据库上的实验表明,作为局部特征的互补特征,累计概率直方图特征不仅提高了动作识别的正确率,而且具有较好的鲁棒性。②提出了一种判别核字典学习框架。基于局部特征的字典学习识别人体动作包含三个独立步骤:字典学习、特征编码和池化。忽略了这三个步骤彼此之间的影响,不能针对分类任务学习最佳判别字典,使得特征编码判别力较低;且传统字典学习方法是在线性空间进行训练,不能有效处理非线性数据。针对这些问题,提出的判别字典学习框架融合这三个独立步骤,形成一个统一的目标函数。通过同时最优化,减少三个独立步骤彼此之间的影响,增强了特征编码的判别力。此外,在学习判别字典的同时学习了一个线性分类器。采用双字典模型对框架进行核推广,将特征非线性映射到高维特征空间,增强该框架处理非线性数据的能力。实验证明了该框架的有效性。③提出了一种基于帧间编码系数变化的动作表示方法。观察到视频帧间编码系数的变化反映了视频运动信息的变化,对视频帧间编码系数变化进行统计可有效捕捉视频中的运动信息,特别是时间变化信息。采用空间金字塔模型将视频在空间维度分割成多个单元,对每个单元连续帧间编码系数在时间上的变大和变小变化进行统计,统计的直方图特征用基于空间金字塔匹配核的支持向量机进行分类。与其他动作表示方法相比,这种特征具有较强的鲁棒性,容易计算,且不依赖于特定的编码方法。④提出了一种新的基于隐变量支持向量机的判别模型。将视频表示成稠密的时空部件,观察到动作可由一组判别时空部件联合区分。定义时空部件为隐变量,引入组稀疏正则化技术,通过最优化删除判别力低的时空部件检测器,达到同时学习和选择一组判别时空部件检测器的目的。针对时空部件检测器冗余问题,引入类内非相关性约束。针对判别部件一致性问题,引入相似性约束促使同类动作视频中检测到的时空部件尽可能的一致,并提出一个迭代算法快速求解带有相似性约束的隐变量。实验结果表明,检测到的时空部件具有判别性,且在多个数据库上取得了较好的识别效果。
【关键词】:人体动作识别 上下文 判别字典学习 特征编码 隐变量支持向量机
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 中文摘要3-5
  • ABSTRACT5-11
  • 1 绪论11-31
  • 1.1 课题研究背景及意义11-12
  • 1.2 人体动作识别问题的描述12-14
  • 1.3 国内外研究现状14-24
  • 1.3.1 特征提取与表达14-21
  • 1.3.2 动作分类21-24
  • 1.4 人体动作数据库24-27
  • 1.5 本文主要研究内容与结构安排27-31
  • 2 基于兴趣点上下文结构信息的人体动作识别31-51
  • 2.1 引言31-32
  • 2.2 已有研究介绍32-35
  • 2.2.1 特征编码32-34
  • 2.2.2 兴趣点时空结构34-35
  • 2.3 兴趣点上下文结构信息35-44
  • 2.3.1 后验概率编码35-38
  • 2.3.2 累计概率直方图38-40
  • 2.3.3 动作分类40-44
  • 2.4 实验与分析44-50
  • 2.4.1 实验设计44-45
  • 2.4.2 KTH数据库动作分类实验45-47
  • 2.4.3 ADL数据库动作分类实验47-48
  • 2.4.4 UCF Sports数据库动作分类实验48
  • 2.4.5 HMDB51数据库动作分类实验48-50
  • 2.5 本章小结50-51
  • 3 基于判别核字典学习的人体动作识别51-71
  • 3.1 引言51-52
  • 3.2 已有研究介绍52-58
  • 3.2.1 字典学习模型52-57
  • 3.2.2 协作表示57-58
  • 3.3 基于判别核字典学习的人体动作识别58-66
  • 3.3.1 判别核字典学习框架58-59
  • 3.3.2 最优化方法59-64
  • 3.3.3 编码系数时间变化特征64-65
  • 3.3.4 动作分类65-66
  • 3.4 实验与分析66-69
  • 3.4.1 实验设计66
  • 3.4.2 KTH数据库动作分类实验66-67
  • 3.4.3 UCF Sports数据库动作分类实验67
  • 3.4.4 HMDB51数据库动作分类实验67-69
  • 3.5 本章小结69-71
  • 4 基于判别时空部件的人体动作识别71-89
  • 4.1 引言71-72
  • 4.2 已有研究介绍72-75
  • 4.2.1 基于部件的人体动作识别73-74
  • 4.2.2 隐变量支持向量机74-75
  • 4.3 基于判别时空部件的人体动作识别75-82
  • 4.3.1 视频时空部件提取与描述77
  • 4.3.2 多类隐变量支持向量机77
  • 4.3.3 判别时空部件学习模型77-79
  • 4.3.4 最优化方法79-81
  • 4.3.5 动作分类81-82
  • 4.4 实验与分析82-87
  • 4.4.1 实验设计82
  • 4.4.2 KTH数据库动作分类实验82-84
  • 4.4.3 UCF Sports数据库动作分类实验84-86
  • 4.4.4 HMDB51数据库动作分类实验86-87
  • 4.5 本章小结87-89
  • 5 特征融合实验与分析89-95
  • 5.1 引言89
  • 5.2 特征融合89-90
  • 5.2.1 特征级融合89
  • 5.2.2 匹配分数级融合89-90
  • 5.3 融合实验与结果分析90-91
  • 5.4 本章小结91-95
  • 6 总结与展望95-99
  • 6.1 本文工作总结95-96
  • 6.2 后续工作展望96-99
  • 致谢99-101
  • 参考文献101-117
  • 附录117
  • A作者在攻读博士学位期间参加的科研项目117
  • B作者在攻读博士学位期间发表论文情况117

【参考文献】

中国期刊全文数据库 前7条

1 王宇新;郭禾;何昌钦;冯振;贾棋;;用于图像场景分类的空间视觉词袋模型[J];计算机科学;2011年08期

2 钱X;马旭东;戴先中;;基于抽象隐马尔可夫模型的运动行为识别方法[J];模式识别与人工智能;2009年03期

3 申晓霞;张桦;高赞;徐光平;薛彦兵;张哲;;基于深度信息和RGB图像的行为识别算法[J];模式识别与人工智能;2013年08期

4 胡琼;秦磊;黄庆明;;基于视觉的人体动作识别综述[J];计算机学报;2013年12期

5 段菲;章毓晋;;一种面向稀疏表示的最大间隔字典学习算法[J];清华大学学报(自然科学版);2012年04期

6 胡长勃,冯涛,马颂德,卢汉清;基于主元分析法的行为识别[J];中国图象图形学报;2000年10期

7 徐光yP;曹媛媛;;动作识别与行为理解综述[J];中国图象图形学报;2009年02期


  本文关键词:局部时空特征及部件的视频人体动作识别方法研究,由笔耕文化传播整理发布。



本文编号:347737

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/347737.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f9db4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com