基于深度学习的时序动作检测研究
发布时间:2024-07-07 07:04
近年来,随着全球移动互联网技术以及数字化设备的快速发展和普及,互联网上的视频数据每天都在以惊人的速度增长,依靠人工的方式处理如此海量的视频数据并不现实,基于深度学习的时序动作检测研究引起了广大研究者们的兴趣,已经成为了目前智能视频分析领域中的研究热点。该研究涉及计算机视觉、图像处理、视频分析、目标检测等诸多研究领域,具有重要的科学意义,可以广泛应用于智能安防、机器人视觉、虚拟现实、视频监控、人机交互等多个领域,具有良好的应用前景。时序动作检测是给定一段未裁剪的视频,实现视频中动作片段的检测,包括开始时间、结束时间和动作类别,是智能视频分析领域中的研究热点之一。基于手工特征提取的传统方法对于复杂多变的动作类型鲁棒性较差,基于深度学习的方法可以有效地学习到不同动作之间的差异,在视频动作分析领域已取得了大量的研究成果。然而时序动作检测的性能严重依赖于目标动作的时序提议效果,有效的时序提议对动作检测效果起到了决定性的作用,而视频数据结构复杂、目标动作变化多样且动作持续时间长短不一等问题,使得时序动作检测中时序提议方法存在着视频特征利用不充分、目标动作边界检测困难等问题。针对以上所存在的问题,本...
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
本文编号:4003332
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图2.1卷积操作示例
华中科技大学硕士学位论文转换为另一个。常用的神经元层由三种类型:卷积层,池化层,以通过一系列隐藏层将输入图像转换为输出向量。每个隐藏层由一对其输入应用线性变换,即用于卷积层的卷积和用于全连接层的通常会紧随一个激活函数,例如ReLU,Sigmoid等非线性函数。和输出是称为特征....
图2.2ReLU函数示意图
设卷积步长值为S,将每个卷积核滑过输入特征图。当S1时跳过S像素,将产生一个空间下采样的特征图。最后,设对应填像素的数为P。通常我们使用它来保证输入特征图的空间大小,因度和高度是相同的。入特征图的空间大小为WWD。则输出特征图的大小为MMW....
图2.4FasterR-CNN网络结构简图
图2.4FasterR-CNN网络结构简图[75]RPN被放置在最后的共享卷积层conv5之后,并在特征图上滑动以确定该区否为目标。值得注意的是,RPN网络与目标检测层是共享的。具体来说,图像入网络,在经过conv5层的卷积操作之后,特征图被传到RPN网络....
图3.1特征提取采样示意图
和内存容量的问题,整个视频无法直接输入网络。因此,需要对视频进行一定的处理,在获得准确有效的特征图的前提下,尽量减小内存的占用。首先,需要确定的是采样的方式。设现有视频V,以25fps/s的帧率将视频拆分为图像,拆分后的总帧数为T,则有1={f}TttV,ft代表视....
本文编号:4003332
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4003332.html
上一篇:基于深度学习的植物叶片识别研究与实现
下一篇:没有了
下一篇:没有了