视频时序动作检测研究
发布时间:2021-04-08 22:48
近年来,随着多媒体技术的发展及数字化设备的快速普及,网络中的视频数据呈爆炸式增长。如何快速、准确、高效地分析体量庞大而无组织的视频数据成为研究人员亟待攻克的重要课题。作为机器学习中的重要分支,深度学习已在图像分类和检测领域取得重大突破,因此,研究人员着手将神经网络引入视频理解问题。目前视频理解问题已衍生出时序动作检测、行为分析、视频摘要、目标追踪等任务。其中,时序动作检测算法在医疗监控、国家安防等众多领域具有广阔的应用前景。时序动作检测是计算机视觉领域中一项重要的任务,不仅要识别长视频中各个动作实例的精确动作区间,还应判断动作类别。其难点在于两点:一方面,动作的边界定位对于时序信息较为敏感,精确捕捉时序信息至关重要;另一方面,视频中动作实例的时间跨度变化可能较大,这对网络的长时序信息的捕捉能力要求较高。本文基于深度学习架构,提出了一种时域候选区域优化的时序动作检测方法(Temporal Proposal Optimization,TPO)。该方法利用卷积神经网络提取局部细粒度的时序信息,引入双向长短期记忆网络和级联时序分类优化方法提取全局整体的时序信息,联合利用两类信息构造视频的边界概...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
图2.1时序动作检测算法流程图
盗胁僮鳎??苊饬朔痹拥脑ご?砉?蹋?虼?卷积神经网络已广泛应用于各类图像相关的领域中。启发自人类视觉原理,上世纪90年代,LeCun等人[41]首次提出卷积神经网络,而后经过修改设计得到广为熟知的用于手写数字识别的LeNet-5模型,结构图如图2.2,其主要由输入层、卷积层(Convolution)、池化层(Subsampling)、全连接层(FullConnection)、输出层组成。该模型针对数字识别问题,在手写数字数据集MNIST上实现了高达99.2%的正确率,此实验结果表明了CNN结构的有效性。本节从卷积层和池化层两方面对CNN的特点展开描述。图2.2LeNet-5模型结构[41]Fig2.2ThestructureofLeNet-5model(1)卷积层。卷积层由若干卷积单元构成,其中的卷积操作来源于数学中的卷积运算,但又有所区别。执行卷积操作时,将卷积核中心与图像中某一像素点对准,将卷积核覆盖的图像区域内的每个像素值与对应的卷积核权值计算点积,运算结果作为该位置的响应值。现在假设输入的单通道图像尺寸为44(浅灰色区域),卷积核尺寸设置为33(深灰色区域),填充设为0,步长设为1,这一卷积
合肥工业大学学术硕士研究生学位论文12运算过程如图2.3所示。最终的卷积结果为22的特征图像(绿色区域)。在卷积计算过程中,使用相同的卷积核对图像的不同位置进行卷积操作,这意味着神经元能够检测到处于图像中不同位置的同一类型特征,因此卷积神经网络具有较好的平移不变性,不同神经元之间的参数共享也减少了需要求解的参数量。与此同时,CNN中包含多个卷积层,单个神经元不需要对整张图像做感受,即浅层捕捉图像的局部特征,深层整合浅层神经元的信息构成全局信息,这样的设置减少了参数训练量。这也意味着在卷积神经网络中,低层学习颜色、纹理等低级特征,高层学习高级语义特性。图2.3卷积过程Fig2.3Theprocedureofconvolution(2)池化层。引入池化的概念,对卷积操作之后的特征图执行下采样,以调整图像的大小,压缩数据、降低数据维度,还可起到降低过拟合的作用。池化操作的计算过程如图2.4所示,左侧为最大值池化(MaxPooling),即响应值为窗口中的最大值;右侧为均值池化(MeanPooling),即响应值为窗口中的均值。与卷积计算过程类似,池化操作也同样取固定的扫描窗口对特征图按从左至右、从上至下的顺序扫描。为方便区分,每一次池化操作使用不同的背景颜色。最大池化对窗口中的矩阵进行最大值采样,平均池化对窗口中的矩阵进行均值采样。图2.4最大值池化与均值池化过程Fig2.4Theprocedureofmaxpoolingandmeanpooling2.2.2循环神经网络循环神经网络[42](RecursiveNeuralNetwork,RNN)借鉴了“人的认知是基于过往的经验和记忆”这一特性,赋予了网络“记忆”功能。RNN以序列数据为输入,
【参考文献】:
期刊论文
[1]基于深度学习的视频中人体动作识别进展综述[J]. 罗会兰,童康,孔繁胜. 电子学报. 2019(05)
[2]动作切分和流形度量学习的视频动作识别[J]. 罗会兰,赖泽云,孔繁胜. 中国图象图形学报. 2017(08)
[3]人的视觉行为识别研究回顾、现状及展望[J]. 单言虎,张彰,黄凯奇. 计算机研究与发展. 2016(01)
硕士论文
[1]基于深度学习的时序动作检测和视频描述算法研究[D]. 刘晓宁.北京邮电大学 2019
本文编号:3126402
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
图2.1时序动作检测算法流程图
盗胁僮鳎??苊饬朔痹拥脑ご?砉?蹋?虼?卷积神经网络已广泛应用于各类图像相关的领域中。启发自人类视觉原理,上世纪90年代,LeCun等人[41]首次提出卷积神经网络,而后经过修改设计得到广为熟知的用于手写数字识别的LeNet-5模型,结构图如图2.2,其主要由输入层、卷积层(Convolution)、池化层(Subsampling)、全连接层(FullConnection)、输出层组成。该模型针对数字识别问题,在手写数字数据集MNIST上实现了高达99.2%的正确率,此实验结果表明了CNN结构的有效性。本节从卷积层和池化层两方面对CNN的特点展开描述。图2.2LeNet-5模型结构[41]Fig2.2ThestructureofLeNet-5model(1)卷积层。卷积层由若干卷积单元构成,其中的卷积操作来源于数学中的卷积运算,但又有所区别。执行卷积操作时,将卷积核中心与图像中某一像素点对准,将卷积核覆盖的图像区域内的每个像素值与对应的卷积核权值计算点积,运算结果作为该位置的响应值。现在假设输入的单通道图像尺寸为44(浅灰色区域),卷积核尺寸设置为33(深灰色区域),填充设为0,步长设为1,这一卷积
合肥工业大学学术硕士研究生学位论文12运算过程如图2.3所示。最终的卷积结果为22的特征图像(绿色区域)。在卷积计算过程中,使用相同的卷积核对图像的不同位置进行卷积操作,这意味着神经元能够检测到处于图像中不同位置的同一类型特征,因此卷积神经网络具有较好的平移不变性,不同神经元之间的参数共享也减少了需要求解的参数量。与此同时,CNN中包含多个卷积层,单个神经元不需要对整张图像做感受,即浅层捕捉图像的局部特征,深层整合浅层神经元的信息构成全局信息,这样的设置减少了参数训练量。这也意味着在卷积神经网络中,低层学习颜色、纹理等低级特征,高层学习高级语义特性。图2.3卷积过程Fig2.3Theprocedureofconvolution(2)池化层。引入池化的概念,对卷积操作之后的特征图执行下采样,以调整图像的大小,压缩数据、降低数据维度,还可起到降低过拟合的作用。池化操作的计算过程如图2.4所示,左侧为最大值池化(MaxPooling),即响应值为窗口中的最大值;右侧为均值池化(MeanPooling),即响应值为窗口中的均值。与卷积计算过程类似,池化操作也同样取固定的扫描窗口对特征图按从左至右、从上至下的顺序扫描。为方便区分,每一次池化操作使用不同的背景颜色。最大池化对窗口中的矩阵进行最大值采样,平均池化对窗口中的矩阵进行均值采样。图2.4最大值池化与均值池化过程Fig2.4Theprocedureofmaxpoolingandmeanpooling2.2.2循环神经网络循环神经网络[42](RecursiveNeuralNetwork,RNN)借鉴了“人的认知是基于过往的经验和记忆”这一特性,赋予了网络“记忆”功能。RNN以序列数据为输入,
【参考文献】:
期刊论文
[1]基于深度学习的视频中人体动作识别进展综述[J]. 罗会兰,童康,孔繁胜. 电子学报. 2019(05)
[2]动作切分和流形度量学习的视频动作识别[J]. 罗会兰,赖泽云,孔繁胜. 中国图象图形学报. 2017(08)
[3]人的视觉行为识别研究回顾、现状及展望[J]. 单言虎,张彰,黄凯奇. 计算机研究与发展. 2016(01)
硕士论文
[1]基于深度学习的时序动作检测和视频描述算法研究[D]. 刘晓宁.北京邮电大学 2019
本文编号:3126402
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3126402.html
最近更新
教材专著