时空压缩激励残差乘法网络用于视频动作识别

发布时间:2024-04-22 03:40
  视频作为信息的主要载体之一,已越来越多的被人类共享。如何理解和分析这些海量涌现的视频数据显得至关重要。视频中的人体动作识别研究已经成为计算机视觉领域中极具挑战性的课题。不论是在视频信息检索、日常生活安全、公共视频监控,还是人机交互、科学认知等领域都有广泛的应用。本文首先简单概述动作识别研究背景与意义还有难点,接着从模型输入信号的类型和数量、是否结合了传统特征提取方法、模型预训练三个维度详细综述了基于深度学习的动作识别方法,及比较分析了它们在UCF101和HMDB51这两个数据集上的识别效果。最后分别从视频预处理、视频中人体运动信息表征、模型学习训练这三个角度对未来动作识别可能的发展方向进行了论述。通过对当前基于深度模型的视频动作识别方法进行总结对比分析以供相关研究者参考。结合深度模型的时间信息和空间信息的双流方法是视频动作识别领域中最为典型的方法。本文从最初的双流网络结构出发,提出了一种时空压缩激励残差乘法网络用于视频动作识别,该方法有效提升了动作识别的性能。针对浅层网络和一般深度模型学习空间信息和时间信息的不足,提出将压缩激励残差网络用于空间流和时间流的动作识别。通过将恒等映射核作为...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图1.1传统动作识别方法的分类图

图1.1传统动作识别方法的分类图

图1.1传统动作识别方法的分类图不同于传统的动作识别方法,基于深度学习的端到端方法是将特征提取表达与后续的全连接网络层进行统一训练和学习,实现特征提取和分类的无缝连接。图1.2是基于深度学习的动作识别方法分类图。从图1.2可以看出,基于深度学习的动作识别方法包含三大类....


图1.2深度学习动作识别方法的分类图

图1.2深度学习动作识别方法的分类图

图1.2深度学习动作识别方法的分类图1.3视频动作识别的研究难点视频中的人体动作识别主要有两个步骤,先是视频中人体动作的特征表示,然后是对这些特征进行理解并最终分类。视频图像的特征表达是视频动作识别的重点,可以分成基于模型的表示以及不基于模型的表示,其中后者又可分为局部特征....


图2.1三维卷积网络结构图

图2.1三维卷积网络结构图

表示成单帧光流特征图,并将其应用于动作识别中。2.2.2输入信号流的个数根据输入信号流的数量,当前基于深度模型的动作识别方法可以分为单流、双流及多流网络模型方法。2.2.2.1单流动作识别模型在单流动作识别模型中,使用最广泛的是三维卷积神经网络。三维卷积的概念最初是Shui....


图2.2二流网络结构图

图2.2二流网络结构图

图2.2二流网络结构图视频动作识别的训练数据集相较于图像领域的ImageNet[61]数据集来说相对较小,在训练时更容易出现过拟合。相比于图像识别领域的深度模型(如VGGNet[62]和GoogLeNet[63]),视频动作识别采用的二流卷积网络结构相对较浅,因此表达能力....



本文编号:3961877

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3961877.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户65b59***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com