基于递归神经网络的视频行为建模和识别方法研究
发布时间:2023-01-29 17:56
近年来,对视频中的行为建模和识别一直是计算机视觉研究中的热点和难点。由于递归神经网络,特别是长短时记忆网络,在机器翻译等领域的突出表现,利用递归神经网络对视频进行序列建模成为主流方法之一。但在较早的研究中,直接利用递归神经网络对视频帧的高层特征序列建模,并没有取得预想中的卓越效果。这主要是由于与一般的序列数据不同,视频数据具有自己的特点:一,视频数据本身具有维度高、语意结构复杂等诸多特点。具体到行为识别,视频中部分行为的判别存在歧义性,对上下文信息存在依赖性。二,视频数据序列中的单帧信息结构性弱、相邻帧信息冗余大。这两个方面的特点都极大得增加了利用递归神经网络进行建模的难度。针对视频数据的特点,结合递归神经网络的特性,我们对视频中的行为识别任务,分别设计了递归时空注意力网络和递归姿态注意力网络,来提高递归神经网络对视频行为的建模能力。并在公开数据集上对方法进行了测评,验证了方法的有效性。在本论文的第一部分,针对视频数据的特点一,我们提出了递归时空注意力网络结构。从而支持递归神经网络对每个时刻进行预测时,除了利用高层序列特征之外,可以从整个帧序列中,自适应得找到与当前特征具有强互补作用的...
【文章页数】:96 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
符号列表
第1章 引言
1.1 视频建模与识别
1.1.1 递归神经网络对视频建模的难点
1.2 论文贡献
1.2.1 时空注意力机制
1.2.2 姿态注意力机制
1.3 论文大纲
第2章 背景
2.1 基于手工特征的视频识别方法
2.2 基于深度学习的视频识别方法
2.3 递归神经网络与行为识别
第3章 递归时空注意力网络对视频的行为建模和识别
3.1 引言
3.2 相关工作
3.3 网络设计
3.3.1 双流网络中的特征提取
3.3.2 LSTM中的时空注意力机制
3.3.3 注意力引导的表观流和运动流融合
3.3.4 行为人-注意力正则项
3.4 实验
3.4.1 数据集介绍
3.4.2 模型实现细节
3.4.3 递归时空注意力网络的特性
3.4.4 与其他实验结果的比较
3.5 可视化
3.6 总结
第4章 递归姿态注意力网络对视频的行为建模和识别
4.1 引言
4.2 相关工作
4.2.1 基于姿态的行为识别
4.3 网络设计
4.3.1 卷积层特征提取
4.3.2 姿态注意力机制
4.3.3 LSTM时序建模
4.3.4 损失函数
4.4 实验
4.4.1 实验细节
4.4.2 实验结果
4.4.3 递归姿态注意力机制的特性
4.4.4 模型拓展与探索实验
4.4.5 视频中的姿态估计
4.5 可视化
4.6 总结
第5章 总结与展望
5.1 未来工作
参考文献
作者简历及攻读学位期间发表的学术论文与研究成果
致谢
本文编号:3732739
【文章页数】:96 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
符号列表
第1章 引言
1.1 视频建模与识别
1.1.1 递归神经网络对视频建模的难点
1.2 论文贡献
1.2.1 时空注意力机制
1.2.2 姿态注意力机制
1.3 论文大纲
第2章 背景
2.1 基于手工特征的视频识别方法
2.2 基于深度学习的视频识别方法
2.3 递归神经网络与行为识别
第3章 递归时空注意力网络对视频的行为建模和识别
3.1 引言
3.2 相关工作
3.3 网络设计
3.3.1 双流网络中的特征提取
3.3.2 LSTM中的时空注意力机制
3.3.3 注意力引导的表观流和运动流融合
3.3.4 行为人-注意力正则项
3.4 实验
3.4.1 数据集介绍
3.4.2 模型实现细节
3.4.3 递归时空注意力网络的特性
3.4.4 与其他实验结果的比较
3.5 可视化
3.6 总结
第4章 递归姿态注意力网络对视频的行为建模和识别
4.1 引言
4.2 相关工作
4.2.1 基于姿态的行为识别
4.3 网络设计
4.3.1 卷积层特征提取
4.3.2 姿态注意力机制
4.3.3 LSTM时序建模
4.3.4 损失函数
4.4 实验
4.4.1 实验细节
4.4.2 实验结果
4.4.3 递归姿态注意力机制的特性
4.4.4 模型拓展与探索实验
4.4.5 视频中的姿态估计
4.5 可视化
4.6 总结
第5章 总结与展望
5.1 未来工作
参考文献
作者简历及攻读学位期间发表的学术论文与研究成果
致谢
本文编号:3732739
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3732739.html