基于深度学习机制的人与物体交互活动识别技术

发布时间:2017-03-23 18:16

  本文关键词:基于深度学习机制的人与物体交互活动识别技术,由笔耕文化传播整理发布。


【摘要】:人与物体交互活动识别研究是图像理解研究的核心研究内容之一,它对提高图像理解的智能水平具有重要的理论意义。同时,它在信息检索、图像自动收集、人机交互、以及安保自动化等诸多研究领域具有广泛的应用价值。本文通过分析大脑皮层的深度层次结构以及其中蕴含的深度学习机制,归纳总结出了大脑皮层理解人与物体交互活动的基本流程和关键处理阶段,并以此作为研究指导理念,研究了基于静态图像的人与物体交互活动识别技术。本文的主要研究内容和创新成果包括:(1)本文以大脑皮层的深度层次结构和深度学习机制为依据,设计了一种新的人与物体交互活动识别框架。框架通过模拟大脑皮层逐层、逐区域地识别人与物体交互活动的过程,针对其中的四个关键子任务,设计了四个核心模型,即:图像物体3D空间分布重塑、图像视觉结构探测、人与物体交互活动识别、和图像主题内容描述模型,共同完成人与物体交互活动识别任务。(2)分析3D空间信息在二维平面上的成像规律,提出了一种针对单目单图物体3D空间分布重塑的模型。模型使用离散抽象分析方法,重构图像中深度变化连续、变化率一致的区域的深度信息,进而重塑图像物体的3D空间分布信息。该模型提高了物体绝对深度、相对深度、以及物体真实尺寸预测的准确率。(3)在分析图像中人与物体的3D空间相对位置关系的基础上,提出了一种图像视觉结构探测模型。模型通过估计人与物体联合出现的概率强度,预测图像所蕴含的视觉结构。本文的模型在视觉结构所蕴含的人与物体空间相对位置关系统计分析,以及视觉结构探测准确率方面均优于目前具有代表性的Visual Phrase模型、Mutual Model模型和Group of Objects模型。(4)以大脑皮层PC区识别人与物体交互活动的方式和过程为参照,提出了一种人与物体交互活动识别模型。模型以大脑皮层的深度层次结构为基础,设计了一种基于Factors的条件融合知识推理机,将人与物体的3D空间相对位置作为先验条件,辅助模型提取交互活动的高级不变性特征;并采用深度学习机制,逐层高效地训练模型的参数,最终实现人与物体交互活动识别。本文的模型提高了人与物体交互活动识别的准确率。(5)本文提出了一种图像主题自动生成模型。模型包含两个子模型:图像主要语义关系预测和图像主题描述语句自动生成。图像主要语义关系预测模型以分析交互活动与场景物体之间的空间联合发生概率为基础,预测与交互活动最匹配的场景物体之间的语义关系。图像主题描述语句自动生成模型以交互活动与场景物体之间的语义关系为核心,设计了一种基于Lexicalization PCFG的图像主题生成算法,自动生成符合英语语法和语义规范的图像主题描述语句。本文的模型不仅能正确描述图像中人与物体的交互活动,而且生成的语句表现出了较好的语法规范性和认知合理性。
【关键词】:人与物体交互活动 深度学习机制 大脑皮层深度层次结构 图像视觉结构 人与物体3D空间分布
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 摘要5-7
  • Abstract7-12
  • 第1章 绪论12-32
  • 1.1 研究目的和意义12-14
  • 1.2 国内外研究现状及发展趋势14-29
  • 1.2.1 深度学习机制与深度学习模型14-20
  • 1.2.2 人与物体交互活动识别研究20-29
  • 1.3 论文研究内容29-31
  • 1.4 论文结构安排31-32
  • 第2章 基于深度学习机制的人与物体交互活动识别框架32-48
  • 2.1 大脑皮层深度层次感知系统32-35
  • 2.2 深度学习机制35-39
  • 2.3 人与物体交互活动识别框架39-45
  • 2.3.1 图像分割与物体识别40-41
  • 2.3.2 图像物体 3D空间分布重塑41-42
  • 2.3.3 图像视觉结构探测42-43
  • 2.3.4 人与物体交互活动识别43-44
  • 2.3.5 图像主题自动生成44-45
  • 2.4 本章小结45-48
  • 第3章 单目单图物体 3D空间分布重塑48-68
  • 3.1 引言48-50
  • 3.2 静态图像光学成像原理分析50-52
  • 3.3 图像深度参考系模型52-55
  • 3.4 图像物体 3D空间分布重塑算法55-58
  • 3.5 实验与算法分析58-66
  • 3.5.1.实验数据与对比模型59-60
  • 3.5.2.图像深度信息重构评测60-64
  • 3.5.3.图像物体 3D空间分布重塑评测64-66
  • 3.6 本章小结66-68
  • 第4章 图像视觉结构探测68-90
  • 4.1 引言68-69
  • 4.2 图像 3D空间结构模式分析69-70
  • 4.3 基于图像 3D空间结构分析的视觉结构探测模型70-80
  • 4.3.1 视觉结构探测模型表示70-73
  • 4.3.2 视觉结构探测模型推理73-74
  • 4.3.3 视觉结构探测模型学习74-80
  • 4.4 实验与算法分析80-88
  • 4.4.1.实验数据与对比模型80-82
  • 4.4.2.人与物体空间相对位置关系分析评测82-85
  • 4.4.3.视觉结构探测准确性评测85-88
  • 4.5 本章小结88-90
  • 第5章 图像主要人与物体交互活动识别90-116
  • 5.1 引言90-91
  • 5.2 人与物体交互活动识别分析91-92
  • 5.3 基于FTWIM的人与物体交互活动识别模型92-105
  • 5.3.1 基于FTWIM的人与物体交互活动识别模型表示92-95
  • 5.3.2 FTWFLM模型推理95-97
  • 5.3.3 FTWFLM模型学习97-102
  • 5.3.4 Softmax分类器推理102-103
  • 5.3.5 Softmax分类器学习103-105
  • 5.3.6 FTWIM模型整体参数微调105
  • 5.4 实验与算法分析105-113
  • 5.4.1 实验数据与对比模型105-107
  • 5.4.2 人与物体交互活动识别准确率与召回率评测107-112
  • 5.4.3 人与物体交互活动识别错误分析112-113
  • 5.5 本章小结113-116
  • 第6章 图像主题自动生成116-134
  • 6.1 引言116-118
  • 6.2 图像主要语义关系预测模型118-122
  • 6.2.1 图像主要语义关系预测模型表示118-120
  • 6.2.2 图像主要语义关系预测模型推理120-121
  • 6.2.3 图像主要语义关系预测模型学习121-122
  • 6.3 图像主题描述语句自动生成模型122-125
  • 6.4 实验与算法分析125-131
  • 6.4.1 实验数据与对比模型126-127
  • 6.4.2 图像主题理解自动评测127-129
  • 6.4.3 图像主题理解人工评测129-131
  • 6.5 本章小结131-134
  • 结论134-136
  • 参考文献136-146
  • 攻读学位期间发表论文与研究成果清单146-148
  • 致谢148-150
  • 作者简介150

【共引文献】

中国期刊全文数据库 前2条

1 毕泰勇;尚哲;;高级视皮层可塑性:物体和面孔知觉学习综述[J];中国科学:生命科学;2015年01期

2 王萍;吴利安;彭静;杜秀梅;;感知觉训练对斜视术后三级功能恢复临床观察[J];陕西医学杂志;2015年11期

中国博士学位论文全文数据库 前3条

1 牟海燕;发育期大鼠高级视皮层活动对初级视皮层突触可塑性影响的研究[D];天津医科大学;2010年

2 王岩;基于认知控制和冲突监控[D];华东师范大学;2014年

3 刘玉燕;暗饲养对大鼠初级视皮层Ⅱ/Ⅲ层锥体神经元突触传递特征的影响[D];天津医科大学;2012年

中国硕士学位论文全文数据库 前3条

1 宋峰伟;视知觉学习与全遮盖治疗对于超敏感期弱视患者的功能重建研究[D];浙江大学;2013年

2 蔡永华;运用pRF技术对汉语母语者早期视皮层的研究[D];华东师范大学;2014年

3 黄莉雯;双眼视注意力转移训练治疗视觉敏感期后弱视的研究[D];复旦大学;2013年


  本文关键词:基于深度学习机制的人与物体交互活动识别技术,由笔耕文化传播整理发布。



本文编号:264301

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/264301.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2128b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com