基于注意力机制的长时程特征融合的视频行为识别研究与实现
发布时间:2023-03-11 05:49
随着计算机视觉技术近几年快速发展,以及各种视频数据急剧增加,使得基于视频数据的视觉分析成为研究热点。目前主流的卷积神经网络模型对长时程视频数据的建模能力有限,行为识别方法也通常采用平均抽样的策略将长时程视频数据转换为少数帧图像,不可避免的造成信息缺失。另一方面,视频片段中存在着大量冗余的图像帧,如果不加区别的进行处理,则会增加计算复杂度。因此如何既保留视频序列的关键信息又合理地降低处理的数据量是面向视频的行为识别中一个需要亟待解决的难题。为此,本文提出了基于注意力机制的长时程特征融合方法,用以提高视频行为识别的有效性和精确性。本文主要工作内容如下:(1)对常用的视频行为识别算法进行调研和分析,分别对基于浅层特征的方法和基于深度特征的方法的研究现状进行介绍,并对其中经典的视频行为识别算法进行了实验重现,对比了现有算法识别精度,分析了现有识别算法的优劣势;(2)提出了面向视频行为的特征学习方法,在综合分析当前各个算法的优势与劣势后,采用双流网络模型,即将RGB图像和光流的双流网络应用于视频行为领域;为了进一步提高行为识别的正确率,弥补双流模型中有限视频帧带来的信息损失,本文通过利用长时程视...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
专用术语注释表
第一章 绪论
1.1 课题研究的目的与意义
1.2 视频行为识别研究现状
1.3 常用行为识别库
1.4 研究内容
1.5 论文结构
第二章 常用的行为识别方法
2.1 基于浅层特征方法
2.1.1 浅层特征提取方法
2.1.2 特征编码方式
2.1.3 密集轨迹算法和改进方法
2.2 基于深度学习方法
2.2.1 双流方法
2.2.2 3D卷积方法
2.2.3 CNN+LSTM结构融合双流特征
2.3 实验结果与分析
第三章 基于注意力机制的长时程特征融合行为识别方法
3.1 网络结构
3.2 视频预处理
3.2.1 光流算法
3.2.2 数据扩增
3.3 时空特征提取模块
3.3.1 空间特征提取模块
3.3.2 时间特征提取模块
3.4 注意力机制模块
3.4.1 注意力机制的本质
3.4.2 注意力机制的设计
3.5 长时程信息融合模块
第四章 基于本文方法的实验结果及分析
4.1 训练和测试策略
4.2 对比实验
4.2.1 评估预训练带来的影响
4.2.2 评估注意力机制不同参数带来的影响
4.2.3 评估视频片段数量和片段帧采样数量带来的影响
4.2.4 评估不同的融合机制
4.2.5 与最先进水平的对比
第五章 总结与展望
5.1 全文总结
5.2 研究展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
本文编号:3759316
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
专用术语注释表
第一章 绪论
1.1 课题研究的目的与意义
1.2 视频行为识别研究现状
1.3 常用行为识别库
1.4 研究内容
1.5 论文结构
第二章 常用的行为识别方法
2.1 基于浅层特征方法
2.1.1 浅层特征提取方法
2.1.2 特征编码方式
2.1.3 密集轨迹算法和改进方法
2.2 基于深度学习方法
2.2.1 双流方法
2.2.2 3D卷积方法
2.2.3 CNN+LSTM结构融合双流特征
2.3 实验结果与分析
第三章 基于注意力机制的长时程特征融合行为识别方法
3.1 网络结构
3.2 视频预处理
3.2.1 光流算法
3.2.2 数据扩增
3.3 时空特征提取模块
3.3.1 空间特征提取模块
3.3.2 时间特征提取模块
3.4 注意力机制模块
3.4.1 注意力机制的本质
3.4.2 注意力机制的设计
3.5 长时程信息融合模块
第四章 基于本文方法的实验结果及分析
4.1 训练和测试策略
4.2 对比实验
4.2.1 评估预训练带来的影响
4.2.2 评估注意力机制不同参数带来的影响
4.2.3 评估视频片段数量和片段帧采样数量带来的影响
4.2.4 评估不同的融合机制
4.2.5 与最先进水平的对比
第五章 总结与展望
5.1 全文总结
5.2 研究展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
本文编号:3759316
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3759316.html
最近更新
教材专著