基于空时特征融合和深度学习的视频行为识别方法研究
发布时间:2021-02-09 12:45
视频数据的爆炸式增长以及人工智能的发展,对建立完善的智能视频分析系统产生了迫切的需求,而作为其核心技术之一的行为识别技术自然成为研究的热点。人体行为识别技术在智能视频分析、智能交通系统以及医疗监护等领域具有重要的应用价值,研究前景广阔。深度学习方法凭借其出色的特征提取能力逐渐取代了表现乏力的基于人工特征的方法,在图像处理领域取得了极大的成功。行为识别基于视频,得益于在图像领域的成功应用,深度学习方法成为当前行为识别研究的主流方法。但是,视频不同于静态图像,除了包含有静态的空域信息外,还存在时序上的动作信息,因此如何能够有效融合空时域特征则是行为识别研究的难点。本文主要对基于深度学习和空时特征融合的视频行为识别方法进行研究,做出的主要工作包括:(1)提出一种基于3D残差网络与空时特征融合的行为识别算法。使用3D卷积可以同时在视频空间维度和时间维度操作,能够提取视频图像空域和时域上的特征。此外使用残差网络结构,利用其良好的网络特性,降低了网络训练的难度。考虑到2D残差网络对单帧图像提取到的空域信息对区分不同的行为有一定的作用,提出将3D残差网络提取的空时域特征与2D残差网络提取的纯空域特征...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图2.4双通道卷积神经网络模型结构
数融合输入视频 视频段 时域分割网络图5.1 时域分割网络结构[27]如图 5.1 中所示,时域分割网络对输入视频样本的处理过程为:对于一个视频样本V ,将其分为长度相同的K 个片段{ }1 2, , ,KS S S,时域分割网络对这一系列分割的片段作如下处理:( ) ( ( ( ) ( ) ( )))1 2 1 2, , , ; , ; , ;K KTSN T T T =H G F T W F T W F T W(5-1)其中,( )1 2, , ,KT T T是一系列视频局部片段,每一个视频局部片段KT 都是从相应的分割片段KS 中随机采样而来。 ( ;)KF T W 是作用在视频局部片段KT 上参数为W 的表示卷积网络的函数,并且对所有类别会得到相应的类别分数。片段一致性函数G 结合不同视频局部片段的输出结果得到一个一致性的类别假设。根据该假设,函数H 将会给出整个视频样本V 是属于哪一种行为类别。该算法中函数H 使用的是 softmax 函数
训练过程中每训练一个 epoch,对模型在测试集上的准确率进行记录。训练完成后用这些记录的数据绘制准确率图,如图 5.5 所示。图5.5 不同采样帧数时准确率随迭代次数变化曲线从表 5.3 中可以看出,随着采样帧数也就是 N 的增加,算法在测试集上的识别准确率不断提升,但是测试所需时间也相应增加。(2)本章算法与现有算法的性能对比为了验证本章提出的基于时域分割与(2+1)D 卷积神经网络(TS(2+1)DN)的行为识别算法的有效性,同样的选择具有代表性的一些算法在 UCF101 数据集上进行训练和和测试,表 5.4 列出了各对比算法在 UCF101 数据集上的识别准确率。具体包括C3D[24]、TSN[27]、Res3D[62]、I3D[52]、T3D[63]、ECO[64]、TwoStream[26]。从表 5.4 中可以看出,本章所提算法 TS(2+1)DN 在 UCF101 数据集上的识别准确率达到了 93.2%,优于现有一些算法,但是略低于第四章的算法,分析其原因主要在于该算法利用稀疏采样策略在一定程度上会损失掉一些信息。表 5.5 中列出了本文提出的三种算法的计算效率
【参考文献】:
期刊论文
[1]基于时间维度局部特征的人体行为识别[J]. 张九龙,张镇东,杨夙,高阳,肖照林. 西安理工大学学报. 2017(02)
[2]视频序列中的行为识别研究进展[J]. 徐勤军,吴镇扬. 电子测量与仪器学报. 2014(04)
[3]人体动作的超兴趣点特征表述及识别[J]. 王扬扬,李一波,姬晓飞. 中国图象图形学报. 2013(07)
本文编号:3025650
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图2.4双通道卷积神经网络模型结构
数融合输入视频 视频段 时域分割网络图5.1 时域分割网络结构[27]如图 5.1 中所示,时域分割网络对输入视频样本的处理过程为:对于一个视频样本V ,将其分为长度相同的K 个片段{ }1 2, , ,KS S S,时域分割网络对这一系列分割的片段作如下处理:( ) ( ( ( ) ( ) ( )))1 2 1 2, , , ; , ; , ;K KTSN T T T =H G F T W F T W F T W(5-1)其中,( )1 2, , ,KT T T是一系列视频局部片段,每一个视频局部片段KT 都是从相应的分割片段KS 中随机采样而来。 ( ;)KF T W 是作用在视频局部片段KT 上参数为W 的表示卷积网络的函数,并且对所有类别会得到相应的类别分数。片段一致性函数G 结合不同视频局部片段的输出结果得到一个一致性的类别假设。根据该假设,函数H 将会给出整个视频样本V 是属于哪一种行为类别。该算法中函数H 使用的是 softmax 函数
训练过程中每训练一个 epoch,对模型在测试集上的准确率进行记录。训练完成后用这些记录的数据绘制准确率图,如图 5.5 所示。图5.5 不同采样帧数时准确率随迭代次数变化曲线从表 5.3 中可以看出,随着采样帧数也就是 N 的增加,算法在测试集上的识别准确率不断提升,但是测试所需时间也相应增加。(2)本章算法与现有算法的性能对比为了验证本章提出的基于时域分割与(2+1)D 卷积神经网络(TS(2+1)DN)的行为识别算法的有效性,同样的选择具有代表性的一些算法在 UCF101 数据集上进行训练和和测试,表 5.4 列出了各对比算法在 UCF101 数据集上的识别准确率。具体包括C3D[24]、TSN[27]、Res3D[62]、I3D[52]、T3D[63]、ECO[64]、TwoStream[26]。从表 5.4 中可以看出,本章所提算法 TS(2+1)DN 在 UCF101 数据集上的识别准确率达到了 93.2%,优于现有一些算法,但是略低于第四章的算法,分析其原因主要在于该算法利用稀疏采样策略在一定程度上会损失掉一些信息。表 5.5 中列出了本文提出的三种算法的计算效率
【参考文献】:
期刊论文
[1]基于时间维度局部特征的人体行为识别[J]. 张九龙,张镇东,杨夙,高阳,肖照林. 西安理工大学学报. 2017(02)
[2]视频序列中的行为识别研究进展[J]. 徐勤军,吴镇扬. 电子测量与仪器学报. 2014(04)
[3]人体动作的超兴趣点特征表述及识别[J]. 王扬扬,李一波,姬晓飞. 中国图象图形学报. 2013(07)
本文编号:3025650
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3025650.html
最近更新
教材专著