空间语境深度网络下的人体姿态估计研究

发布时间：2021-11-22 13:49

　　人体姿态估计是指根据视觉信息来计算人体各个关节点的姿态参数,在医疗康复、体育训练、智能监视、无人驾驶飞机和自动驾驶汽车等领域有着广泛的实际应用。现有端对端的深度学习方法,尝试通过卷积神经网络定位各关键点的位置,但是,由于存在关节自遮挡和多人混杂等情况,姿态估计仍然是一个病态问题。针对上述问题,课题从人体关节点间的空间语境关系入手,提出了空间语境深度网络下的姿态估计方法,本文主要工作如下:（1）课题阐述了姿态估计视觉任务的研究背景、研究意义和应用场景,从图结构模型和深度学习模型分析了姿态估计方法的现状,另外,阐述了姿态编码及卷积神经网络理论。（2）课题针对难检测关节点估计效果较差的问题,提出了一种空间关系下基于卷积神经网络的人体姿态估计模型。该模型首先根据置信度阈值选取可信关节点,然后构建人体姿态图,并用经验统计的方式建模关节点间的空间语境关系,最后用卷积的方式传递关节点间的语境信息,实现可信关节到不可信关节的空间推理。另外,该模型讨论了全局和局部两种关节点间的空间推理方式。在MPII数据集和LSP数据集上的实验结果证明,本章方法能够实现关节点间的位置信息传递,纠正不可靠的关节点。（3）...

【文章来源】：合肥工业大学安徽省 211工程院校教育部直属院校

【文章页数】：62 页

【学位级别】：硕士

【部分图文】：

空间语境深度网络下的人体姿态估计研究

人体姿态估计过程

过程图,卷积,示例,卷积核

绲那?蛳袼亟?卸杂ο袼叵喑耍?嘶?峁?嗉拥?操作，然后根据步长滑动卷积核，依次处理图像的每个区域，处理结果称为图像的特征，多个卷积核过滤图像的结果称为图像的特征图。不同的卷积核能够提取图像的不同特征，卷积层就是利用卷积核深入地分析输入特征图从而得到更加抽象的特征。假设卷积核的尺寸是kkc，卷积核的数目是N，k指滤波器的大小，c指滤波器通道数，则输入特征图的通道数为c，用卷积核处理图像后，输出特征图的数目是N。假设一张图像的尺寸是551，卷积核尺寸是331，滑动步长是1，卷积核对这张图像的滤波过程如图2.2所示。图2.2卷积层滤波过程示例Fig2.2Aexampleofconvolutionallayerfilteringprocess和卷积层类似，池化层同样有一个滑动窗口，其前向传播的过程也是通过滑动类似卷积核的结构完成的。与卷积计算节点的加权和不同，池化通常采用更加简单的运算方式，输出滑动窗口最大值操作的池化层称作最大值池化，输出窗口平均值操作的池化层称作平均池化。池化层的过滤器尺寸设定以及步长等设置都与卷积层的卷积核类似，并且具有相同的意义。池化层不会改变特征图的深度，只会缩小特征图的的大小，可以认为是将高分辨率的图片转化为较低分辨率的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，减少整个神经网络中参数，加快计算速度。与卷积层的神经元只和输入数据的部分区域连接的方式不同，全连接层的每个神经元与前一层所有的神经元全部连接。全连接层通常在整个网络的最后，聚合由卷积层和池化层提取的深度特征来得到最后的分类结果。可以把卷积层和池化层看作图像特征自动提取的过程。在特征提取完成之后，仍然需要使用全连接层来完成分类任务。在CNN结构中，全连接层每个输出节点的值都依赖于所有输入节点的?

特征图,感受野,示例,卷积核

合肥工业大学学术硕士研究生学位论文12定区域计算所得，这个区域大小就是这个位置的理论感受野。以图2.3为例，33尺寸的卷积核对55尺寸的图像进行卷积，假设滑动步长为1，则经过卷积操作后，图像特征图的感受野是33，然后再对特征图进行卷积，卷积核尺寸为33，则再次生成的特征图的感受野是55，以此类推。图2.3感受野示例图Fig2.3Aexampleofreceptivefield感受野的计算方式如公式(2.3)所示，其中kl表示网络第k层的感受野大小，k1l表示网络第k1层的感受野大小，kf表示第k层的卷积核大小，is表示第i层卷积核的滑动步长。由公式(2.3)可以看到，感受野大小主要取决于卷积核尺寸以及卷积核的滑动步长。111(1)kkkkiillfs(2.3)2.2.2卷积神经网络特点卷积神经网络实质上是对全连接神经网络的改进。相较于普通的全连接神经网络，需要训练的参数更少，其有局部连接、权值共享、层次化表达的特点。（1）局部连接由于图像通常具有局部相关性，因此卷积计算每次只在与卷积核大小对应的区域进行，也就是说输入和输出是局部连接的。相比于普通的神经网络，卷积神经网络计算复杂度低，且能够降低过拟合的风险。（2）权值共享在图像中，不同的区域使用相同的卷积核参数，这一方面减少了参数量，另一方面带来了平移不变性，另一方面带来了平移不变性。平移不变性指不管输入如何平移，总能得到相同的输出。比如，对于左右两只完全相同的眼睛，使用相同的卷积核，在眼睛对应的区域进行卷积，都能够输出相同的结果，这是由权值共享机制带来的。另外，池化也带来了一些平移不变性，比如最大值池化，因为它是对感受野的信息使用最大值聚合，当输入在感受野内变化时，池化层的输出不会改变。（3）层次化表达

【参考文献】：
期刊论文
[1]基于整体-星型模型的人体姿态估计[J]. 代钦,石祥滨,乔建忠,刘芳.  小型微型计算机系统. 2018(12)
[2]基于约束树形图结构外观模型的人体姿态估计[J]. 王浩,刘则芬,方宝富,陈金金.  计算机科学. 2014(03)
[3]基于树形图结构模型的人体姿态估计[J]. 韩贵金,赵勇.  西安邮电大学学报. 2013(03)

本文编号：3511824

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3511824.html

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|