视频中人体行为建模与识别方法研究
发布时间:2021-06-08 18:41
视频中人体行为识别是计算机视觉领域研究的热点话题,其任务是利用计算机视觉和深度学习算法自动分析和识别视频中人体发生的动作,因此被广泛应用于视频监控、互联网视频分析、智能家居、人机交互和购物行为分析等。由于人体动作的类间相似和类内差异性以及周围场景的复杂性等因素,导致在构建人体行为识别模型时遇到许多问题和挑战。本文主要针对人体行为识别建模时遇到的问题展开研究,具体工作如下:(1)由于监控视角、人体姿态和场景等复杂的情况,直接通过增加3D卷积神经网络层数来提取有效的视觉特征,容易导致卷积模型发生梯度消失和过拟合,从而降低了行为识别率。针对上述问题,本文提出了一种基于双重残差卷积网络的识别方法,通过在残差网络中嵌套残差网络,充分融合了浅层和深层视觉特征,缓解了模型训练时梯度消失问题带来的影响,从而使模型性能得到了提升。在多相机跌倒数据集和热舒夫大学跌倒数据集上进行了测试评估,结果表明双重残差网络性能优于三维卷积网络、三维残差网络、伪三维残差网络和2+1维残差网络识别方法,从而验证了双重残差网络模型对提高异常行为识别效果的有效性。(2)在视频中人体活动定位和识别领域中,现有的时序行为提名方法无...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据集MCFD视频示例图
江南大学硕士学位论文1613320个视频,其中每个视频时长2-15秒,帧率25fps。图2-14UCF101视频示例图(4)数据集Thumos14Thumos14是用于时序行为检测任务的视频数据集,包含412个体育运动视频,共20种动作,如图2-15所示。其中200个视频用于训练,212个视频用于测试。为了训练的需要,将200个视频的训练视频集划分为160和40作为训练集和验证集。Thumos14视频集给出了标注文件,包含了每个视频中活动发生的开始与结束位置以及活动所属的类别标签。图2-15Thumos14视频示例图2.7本章小结本章主要介绍了行为识别流程以及所涉及的一些深度学习理论和实验数据集。其中,深度学习理论部分简述了卷积网络组成以及3D卷积、Resnet、Inception等典型的神经网络和长短时记忆力网络、门控循环网络等常见的循环神经网络。最后,简要介绍了MCFD、URFD、UCF101和Thumos14行为识别数据集。下一章将针对行为识别建模时遇到的梯度消失问题展开研究,并提出相应的解决算法。
江南大学硕士学位论文34(a)AR-AN召回率曲线(b)召回率曲线局部放大图图4-6各循环网络的AR-AN召回率曲线(2)与现有时序提名方法对比为客观地评估时序行为提名框架性能,将近几年出现的提名方法进行对比,例如SCNN-prop[22]、DAPs[30]、SST[31]、TURN[51]以及文献[32]和文献[52]中的方法。其中,SCNN-prop通过重叠采样多尺度的视频片段,然后采用3D卷积提取时空特征进行分类识别,进而筛选出候选时序区间;文献[52]采用单向LSTM在整个视频上建立时序模型,而预测时序区间时采用深度强化学习算法。一个性能好的时序行为提名框架,能够产生高召回率和高时序重叠(tIoU)的proposals,实验结果如图4-7、表4-2和表4-3所示。
【参考文献】:
期刊论文
[1]面向智能监控的行为识别[J]. 马钰锡,谭励,董旭,于重重. 中国图象图形学报. 2019(02)
[2]行为识别中一种基于融合特征的改进VLAD编码方法[J]. 罗会兰,王婵娟. 电子学报. 2019(01)
[3]多尺度输入3D卷积融合双流模型的行为识别方法[J]. 宋立飞,翁理国,汪凌峰,夏旻. 计算机辅助设计与图形学学报. 2018(11)
[4]一种基于深度度量学习的视频分类方法[J]. 智洪欣,于洪涛,李邵梅,高超,王艳川. 电子与信息学报. 2018(11)
[5]一种基于线性序列差异分析降维的人体行为识别方法[J]. 鹿天然,于凤芹,陈莹. 计算机工程. 2019(03)
[6]基于改进Faster R-CNN的空中目标检测[J]. 冯小雨,梅卫,胡大帅. 光学学报. 2018(06)
[7]结合有序光流图和双流卷积网络的行为识别[J]. 李庆辉,李艾华,王涛,崔智高. 光学学报. 2018(06)
博士论文
[1]基于递归神经网络的视频行为建模和识别方法研究[D]. 杜文斌.中国科学院大学(中国科学院深圳先进技术研究院) 2018
硕士论文
[1]基于全卷积神经网络的图像显著性检测[D]. 张松龙.江南大学 2019
[2]基于动态得分网络和自适应互补结构的时序行为提名与检测方法[D]. 李磊.华南理工大学 2019
本文编号:3218989
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据集MCFD视频示例图
江南大学硕士学位论文1613320个视频,其中每个视频时长2-15秒,帧率25fps。图2-14UCF101视频示例图(4)数据集Thumos14Thumos14是用于时序行为检测任务的视频数据集,包含412个体育运动视频,共20种动作,如图2-15所示。其中200个视频用于训练,212个视频用于测试。为了训练的需要,将200个视频的训练视频集划分为160和40作为训练集和验证集。Thumos14视频集给出了标注文件,包含了每个视频中活动发生的开始与结束位置以及活动所属的类别标签。图2-15Thumos14视频示例图2.7本章小结本章主要介绍了行为识别流程以及所涉及的一些深度学习理论和实验数据集。其中,深度学习理论部分简述了卷积网络组成以及3D卷积、Resnet、Inception等典型的神经网络和长短时记忆力网络、门控循环网络等常见的循环神经网络。最后,简要介绍了MCFD、URFD、UCF101和Thumos14行为识别数据集。下一章将针对行为识别建模时遇到的梯度消失问题展开研究,并提出相应的解决算法。
江南大学硕士学位论文34(a)AR-AN召回率曲线(b)召回率曲线局部放大图图4-6各循环网络的AR-AN召回率曲线(2)与现有时序提名方法对比为客观地评估时序行为提名框架性能,将近几年出现的提名方法进行对比,例如SCNN-prop[22]、DAPs[30]、SST[31]、TURN[51]以及文献[32]和文献[52]中的方法。其中,SCNN-prop通过重叠采样多尺度的视频片段,然后采用3D卷积提取时空特征进行分类识别,进而筛选出候选时序区间;文献[52]采用单向LSTM在整个视频上建立时序模型,而预测时序区间时采用深度强化学习算法。一个性能好的时序行为提名框架,能够产生高召回率和高时序重叠(tIoU)的proposals,实验结果如图4-7、表4-2和表4-3所示。
【参考文献】:
期刊论文
[1]面向智能监控的行为识别[J]. 马钰锡,谭励,董旭,于重重. 中国图象图形学报. 2019(02)
[2]行为识别中一种基于融合特征的改进VLAD编码方法[J]. 罗会兰,王婵娟. 电子学报. 2019(01)
[3]多尺度输入3D卷积融合双流模型的行为识别方法[J]. 宋立飞,翁理国,汪凌峰,夏旻. 计算机辅助设计与图形学学报. 2018(11)
[4]一种基于深度度量学习的视频分类方法[J]. 智洪欣,于洪涛,李邵梅,高超,王艳川. 电子与信息学报. 2018(11)
[5]一种基于线性序列差异分析降维的人体行为识别方法[J]. 鹿天然,于凤芹,陈莹. 计算机工程. 2019(03)
[6]基于改进Faster R-CNN的空中目标检测[J]. 冯小雨,梅卫,胡大帅. 光学学报. 2018(06)
[7]结合有序光流图和双流卷积网络的行为识别[J]. 李庆辉,李艾华,王涛,崔智高. 光学学报. 2018(06)
博士论文
[1]基于递归神经网络的视频行为建模和识别方法研究[D]. 杜文斌.中国科学院大学(中国科学院深圳先进技术研究院) 2018
硕士论文
[1]基于全卷积神经网络的图像显著性检测[D]. 张松龙.江南大学 2019
[2]基于动态得分网络和自适应互补结构的时序行为提名与检测方法[D]. 李磊.华南理工大学 2019
本文编号:3218989
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3218989.html
最近更新
教材专著