一种改进的3D卷积神经网络行为识别方法

发布时间:2021-01-28 06:20
  视频行为识别具有重要学术价值和大的应用前景,使得它迅速成为计算机视觉领域的研究热点。因此,引起了研究人员和相关机构的极大兴趣。但是,行为识别仍然是一个非常具有挑战性的问题,因为一些现实数据都是从网页视频或者电影片段等中获取,包含了大量摄像机运动、复杂背景以及类内差异过大等问题。所以,提取有效的特征对于行为识别无疑是非常重要的。本文针对现有行为识别方法进行总结与分析,作出了以下几点贡献:首先,针对传统3D卷积神经网络需要固定长度的网络输入问题,本文提出了一种自适应视频镜头分割策略,它尝试在不破坏语义结构的情况下保留运动信息和合适的时间依赖,实现了网络自适应长度的输入。该策略通过考虑相邻帧之间的运动变化信息,捕获了视频序列中的短时依赖关系;然后,通过空时金字塔池化网络(STPP)提取视频片段内的中时依赖关系;接着,提出了一种长期时间池化方法,捕获了视频段与段之间的长时依赖关系。最终,自适应长时间网络被构建,得到最终固定长度的自适应长时描述子(Adaptive Long-Term Descriptor,ALTD)。其次,构建了多区域注意力空间网络。通过结合全局注意力网络和局部多区域网络,空间... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要研究内容及章节安排
第二章 常见行为识别方法简介
    2.1 引言
    2.2 行为识别公共数据库
    2.3 基于人工特征的行为识别
        2.3.1 基于全局描述子的行为识别
        2.3.2 基于局部描述子的行为识别
    2.4 基于深度学习的行为识别
        2.4.1 基于 3D卷积网络的行为识别
        2.4.2 基于双流卷积网络的行为识别
        2.4.3 基于循环网络的行为识别
        2.4.4 基于深度生成模型的行为识别
    2.5 本章小结
第三章 一种基于自适应长期池化策略的行为识别方法
    3.1 引言
    3.2 自适应视频镜头分割策略
        3.2.1 提取中值补偿光流场
        3.2.2 统计运动变化信息
        3.2.3 自适应视频镜头分割
    3.3 构建自适应长时描述子
        3.3.1 3DSTPP网络结构
        3.3.2 长期时间池化方法
        3.3.3 网络优化求解
    3.4 实验与分析
        3.4.1 视频预处理
        3.4.2 参数设置
        3.4.3 参数选择
        3.4.4 自适应长时描述子用于行为识别
    3.5 本章小结
第四章 一种基于多区域注意力机制的行为识别方法
    4.1 引言
    4.2 Inception-BN的网络结构
        4.2.1 批量归一化层和Inception模块
        4.2.2 Inception-BN网络模型
    4.3 全局注意力网络
        4.3.1 注意力机制
        4.3.2 提取全局注意力特征
    4.4 局部多区域网络
    4.5 构建多区域注意力描述子
    4.6 本文行为识别架构与仿真
        4.6.1 本文行为识别新构架
        4.6.2 实验设置
        4.6.3 参数选择
        4.6.4 实验仿真分析
    4.7 本章小结
第五章 全文总结与展望
    5.1 全文总结
    5.2 未来展望
参考文献
致谢
作者简介



本文编号:3004505

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3004505.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c615***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com