基于机器学习的行人姿态估计及识别的算法研究
发布时间:2022-02-18 14:47
视频行为识别的目的是自动检测并分类来自输入视频的正在进行的活动。它在监控,在线视频,运动分析等方面有很多应用。在某些特定的场景中,监控视频中的非正常行为是大家关注的重点,通过系统自动识别异常行为,工作人员可以及时的判断目标区域是否存在危险行为以及它的特点,从而防止恶性活动的进一步扩散及更恶劣后果的出现。视频行为识别是机器学习在安防领域的深入应用,这个产业也吸引着越来越多的研究人员和学者的加入。视频行为识别是指从视频序列中自动分类,其类别通常是人类行为,如步行,慢跑等。视频分析与图像分析最大的区别在于,视频序列包含额外的时间信息,所需的计算量通常要大得多。因此,当前人体行为识别算法的难点集中在这几点:1.如何提取有效的时间域特征和空间域特征是姿态识别和行为分类过程中最重要的问题;2.如何有效融合相同的空间域下和不同时间域下的特征,共同完成姿态的估计和行为的描述;3.为了满足实际应用的要求,算法的效率非常重要,即如何在保证特征提取能力的基础上缩小模型规模;4.网络在训练集上的分类结果非常好,但往往在测试集上的分类结果并不理想,即如何保证模型的泛化能力。这些问题限制了计算机模型自动完成视频中...
【文章来源】:山东大学山东省211工程院校985工程院校教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1?2D卷积操作过程??
I崎??图2-2?3D卷积操作过程??图2-2中,3D卷积操作过程的时间维度是3维,也就是对连续的三帧视频图??像完成卷积运算,图中的3D卷积首先排列许多的特征图构成三维结构,接下来在??整个三维结构中不停的使用3D卷积核完成视频行为的分析。这种架构中,卷积层??的每个特征图都要连接上层中的多个相邻的连续特征图,因而可以准确描述视频??中行人的行为特征。具体地说,在图2-2中,特征图的某一位置的激活值是通过在??上一层三个连续的特征图的局部感受野进行卷积并求和得到的。??每个立方体中的3D卷积核只能捕获某种固定类别的特征信息,这是由于相同??立方体中的卷积核参数相同导致的,即用来减轻过拟合的权值共享策略。但是研??宄人员可以通过使用多个卷积核以全面表达视频行为的特征信息。??30?0^网络包括输入层、硬线层、降采样层、卷积层等。输入层(丨1^11血761〇??将60x40尺寸的连续视频巾贞图像作为输入。在硬线层(hardwiredlayer,?H1)中,??每个视频帧被提取五个通道信息
-,过3x3的滤波器完成降采样运算,每个特征图的大小变为7x4。在这个过程后,各??个通道的特征图尺寸己经变得相当小。在卷积层(convolutionlayer,C6)中,每??个特征图使用7x4的2D卷积核完成卷积运算,此时每个特征图的尺寸为1x1。对??于深度卷积神经网络来说,一个经典的设计技巧就是:特征图的数量随着层数的??增加而增加,充分组合低层次特征以形成完整的高层语义信息的提取。??在整个结构中,层层的卷积运算和降采样操作使得7幅视频帧可以产生大小??128的特征图。输出层的神经元数量与视频行为类别的数量是一致的,输出层的每??个神经元都与这128维的特征向量通过全连接方式相连。最终往往采用线性分类??算法完成对128维的特征向量的分类,以此实现视频中行为的识别。3DCNN网络??模型中的全部可训练权重都采用随机初始化,然后使用反向传播算法??(Backpropagation,BP)完成优化过程。3DCNN网络模型的最终结构如图2-3所??示。??
【参考文献】:
期刊论文
[1]基于多尺度时不可逆与t-SNE流形学习的滚动轴承故障诊断[J]. 姜战伟,郑近德,潘海洋,潘紫微. 振动与冲击. 2017(17)
[2]基于多核稀疏编码的三维人体姿态估计[J]. 余家林,孙季丰,李万益. 电子学报. 2016(08)
[3]基于深度学习的高分辨率遥感影像分类研究[J]. 刘大伟,韩玲,韩晓勇. 光学学报. 2016(04)
[4]基于深度图像梯度特征的人体姿态估计[J]. 徐岳峰,周书仁,王刚,佘凯晟. 计算机工程. 2015(12)
[5]改进随机森林及其在人体姿态识别中的应用[J]. 周博翔,李平,李莲. 计算机工程与应用. 2015(16)
[6]基于Kinect的实时人体姿势识别[J]. 刘开余,夏斌. 电子设计工程. 2014(19)
[7]基于HOG和颜色特征融合的人体姿态估计[J]. 韩贵金,朱虹. 模式识别与人工智能. 2014(09)
[8]基于约束树形图结构外观模型的人体姿态估计[J]. 王浩,刘则芬,方宝富,陈金金. 计算机科学. 2014(03)
[9]基于部位检测的人体姿态识别[J]. 殷海艳,刘波. 计算机工程与设计. 2013(10)
[10]一种基于图结构模型的人体姿态估计算法[J]. 韩贵金,朱虹. 计算机工程与应用. 2013(14)
本文编号:3631027
【文章来源】:山东大学山东省211工程院校985工程院校教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1?2D卷积操作过程??
I崎??图2-2?3D卷积操作过程??图2-2中,3D卷积操作过程的时间维度是3维,也就是对连续的三帧视频图??像完成卷积运算,图中的3D卷积首先排列许多的特征图构成三维结构,接下来在??整个三维结构中不停的使用3D卷积核完成视频行为的分析。这种架构中,卷积层??的每个特征图都要连接上层中的多个相邻的连续特征图,因而可以准确描述视频??中行人的行为特征。具体地说,在图2-2中,特征图的某一位置的激活值是通过在??上一层三个连续的特征图的局部感受野进行卷积并求和得到的。??每个立方体中的3D卷积核只能捕获某种固定类别的特征信息,这是由于相同??立方体中的卷积核参数相同导致的,即用来减轻过拟合的权值共享策略。但是研??宄人员可以通过使用多个卷积核以全面表达视频行为的特征信息。??30?0^网络包括输入层、硬线层、降采样层、卷积层等。输入层(丨1^11血761〇??将60x40尺寸的连续视频巾贞图像作为输入。在硬线层(hardwiredlayer,?H1)中,??每个视频帧被提取五个通道信息
-,过3x3的滤波器完成降采样运算,每个特征图的大小变为7x4。在这个过程后,各??个通道的特征图尺寸己经变得相当小。在卷积层(convolutionlayer,C6)中,每??个特征图使用7x4的2D卷积核完成卷积运算,此时每个特征图的尺寸为1x1。对??于深度卷积神经网络来说,一个经典的设计技巧就是:特征图的数量随着层数的??增加而增加,充分组合低层次特征以形成完整的高层语义信息的提取。??在整个结构中,层层的卷积运算和降采样操作使得7幅视频帧可以产生大小??128的特征图。输出层的神经元数量与视频行为类别的数量是一致的,输出层的每??个神经元都与这128维的特征向量通过全连接方式相连。最终往往采用线性分类??算法完成对128维的特征向量的分类,以此实现视频中行为的识别。3DCNN网络??模型中的全部可训练权重都采用随机初始化,然后使用反向传播算法??(Backpropagation,BP)完成优化过程。3DCNN网络模型的最终结构如图2-3所??示。??
【参考文献】:
期刊论文
[1]基于多尺度时不可逆与t-SNE流形学习的滚动轴承故障诊断[J]. 姜战伟,郑近德,潘海洋,潘紫微. 振动与冲击. 2017(17)
[2]基于多核稀疏编码的三维人体姿态估计[J]. 余家林,孙季丰,李万益. 电子学报. 2016(08)
[3]基于深度学习的高分辨率遥感影像分类研究[J]. 刘大伟,韩玲,韩晓勇. 光学学报. 2016(04)
[4]基于深度图像梯度特征的人体姿态估计[J]. 徐岳峰,周书仁,王刚,佘凯晟. 计算机工程. 2015(12)
[5]改进随机森林及其在人体姿态识别中的应用[J]. 周博翔,李平,李莲. 计算机工程与应用. 2015(16)
[6]基于Kinect的实时人体姿势识别[J]. 刘开余,夏斌. 电子设计工程. 2014(19)
[7]基于HOG和颜色特征融合的人体姿态估计[J]. 韩贵金,朱虹. 模式识别与人工智能. 2014(09)
[8]基于约束树形图结构外观模型的人体姿态估计[J]. 王浩,刘则芬,方宝富,陈金金. 计算机科学. 2014(03)
[9]基于部位检测的人体姿态识别[J]. 殷海艳,刘波. 计算机工程与设计. 2013(10)
[10]一种基于图结构模型的人体姿态估计算法[J]. 韩贵金,朱虹. 计算机工程与应用. 2013(14)
本文编号:3631027
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3631027.html