基于卷积神经网络的人体姿态估计方法研究

发布时间:2020-11-19 18:23
   人体姿态估计是计算机视觉中的热点研究方向。由于图像受到拍摄角度、光照、周围环境等因素的影响,早期基于手工特征的人体姿态估计方法一直无法获得比较满意的性能。随着深度学习特别是卷积神经网络相关研究的深入,基于卷积神经网络的人体姿态估计取得了显著进步,使用卷积神经网络学习特征表示替代传统手工特征能够实现端到端的优化,当前基于卷积神经网络的方法已经成为了人体姿态估计中的主流方法。虽然基于卷积神经网络的人体姿态估计方法取得了较大的进展,但是在实际应用中,基于卷积神经网络的人体姿态估计方法仍然面临一些现实问题。一方面,目前现有的研究主要关注如何提升人体姿态估计方法的精度却忽视了模型在精度与速度之间的平衡,但这却是实现高效人体姿态估计的关键。另一方面,先前的方法并未意识到量化误差与优化矛盾问题在人体姿态估计中的重要性,而这是实现高精度人体姿态估计的关键问题。为了解决这两个核心问题,本文分别从高效网络架构设计、轻量级模型训练策略以及高精度定位这三个角度展开研究工作。本文的主要工作及贡献如下:(1)针对现有人体姿态估计网络架构在设计时未考虑模型的效率问题,提出了一种基于层次上下文学习的高效人体姿态估计网络架构。首先研究了人类视觉感知中的前置注意加工机制,然后将该机制融入到网络架构的设计思想中,提出了一种多阶段的层次上下文网络。整个网络由若干上下文阶段与一个预测阶段构成,网络中各个阶段的子网络由阶段间共享的低层特征提取模块、主干网络、上下文导入模块以及中间上下文学习模块所构成。阶段间共享的低层特征提取模块负责提取各个子网络所需要的低层特征,上下文导入模块将提取到的低层特征以及前一阶段子网络所输出的上下文信息导入到当前子网络中,每个子网络都会收到来自中间上下文学习模块的监督信息。在整个网络架构中子网络的输入由低分辨率逐渐过渡到高分辨,各个子网络中的主干网络使用不同复杂度的模型,低分辨率输入的子网络负责关节点快速的初步定位,只需要简单的模型,而高分辨率输入的子网络负责关节点高精度精细化定位,需要复杂的模型。这种设计能够在不降低模型精度的前提下保证模型的效率。最后,实验验证了层次上下文网络架构在效率与精度方面的优势。(2)针对现有研究中缺乏通用的模型轻量化方法以及轻量级模型会面临的性能退化问题,提出了基于姿态蒸馏的快速人体姿态估计方法。首先,以堆叠沙漏网络为例探究了主流人体姿态估计模型的冗余性,提出了一种通用的模型轻量化方法,减少了人体姿态估计模型的参数量与计算开销。其次,轻量级人体姿态估计模型虽然具有较低参数量与计算开销,但模型的泛化能力也同时发生了退化,为了提升轻量级人体姿态估计模型的泛化能力,将知识蒸馏思想引入至人体姿态估计领域并设计了一种适用于人体姿态估计的蒸馏方法以将重量级网络中所学习到的知识迁移到轻量级网络中并对蒸馏过程中所学习到的知识进行可视化分析。在可视化分析过程中,对学习到的知识进行分类,以直观的方式解释所提姿态蒸馏方法提升模型泛化能力的原因。最后,通过实验验证了基于姿态蒸馏的快速人体姿态估计方法的有效性。(3)针对现有人体姿态估计中关节点表示所存在的量化误差问题,提出了分布感知的人体关节点坐标表示方法。首先,分析了热力图回归方法中人体关节点坐标编解码方法的缺陷,找出坐标编解码过程中量化误差问题产生的原因。其次,在关节点坐标编码阶段提出了关节点坐标的无偏编码方法避免模型学习有偏的关节点位置信息。在关节点坐标解码阶段,提出了热力图分布调整方法以及基于泰勒展开的解码方法,通过在热力图中最大激活值位置使用二阶泰勒展开获得最大激活值到精确位置之间的偏移量,获得精确的关节点坐标。相比传统的编解码方法,所提方法为关节点坐标的编解码提供了理论支撑。最后,实验部分从编码和解码两个角度分别验证了所提方法的有效性,在不同模型上带来的显著提升证明了该方法的通用性。(4)针对传统积分姿态回归方法中所存在的优化矛盾问题,提出了基于位置自适应积分姿态回归方法。首先,给出了积分姿态回归方法的基本原理,其次,分析了该方法在热力图回归与坐标回归之间优化矛盾所存在的原因,分析中发现热力图转换为坐标这个过程缺乏可学习参数会使热力图回归和坐标回归出现无法调和的优化矛盾,优化矛盾会导致模型无法获得精确的关节点坐标。然后,基于上述分析将可学习参数引入到Softmax函数中,提出了位置自适应的Softmax模型,将该模型与积分姿态回归方法进行结合,得到位置自适应的积分姿态积分回归方法。为了降低该方法的训练开销,提出了简化的训练策略。作为一种后处理方法,位置自适应积分姿态回归方法可以在不需要对模型重新训练的情况下与现有方法进行结合。最后,为了验证所提方法的有效性与通用性,实验中对位置自适应积分姿态积分回归方法中简化的训练策略、位置自适应Softmax模型分别进行了验证,评估了不同输入输出分辨率以及主干模型下该方法的性能。
【学位单位】:电子科技大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TP391.41;TP183
【部分图文】:

组织结构图,章节,组织结构,全文


章节组织结构

架构图,卷积,神经网络,架构


早期的分类任务或者回归任务都是在特征提取器的后端接上全连接层,通过全连接层降低特征的维度。然而,全连接层过多的参数会增加网络的计算开销,造成过拟合。为了减少网络的参数量与计算量,避免过拟合,研究者尝试使用全局池化层替代全连接层,获得了与全连接层相同的效果[13]。对于某些密集预测(Dense Prediction,DP)任务比如语义分割[14]、姿态估计[15]等,则一般在靠近输出的网络层使用卷积层。原因在于这一类任务需要使用全卷积网络以保留位置信息,产生分割图或者热力图。下面分别对卷积神经网络的各个组成部分进行详细介绍:

架构图,架构,人体,关节点


在基于坐标回归的方法中,DeepPose[3]奠定了基于坐标回归的方法的基础,提出了很多实用的数据预处理及网络训练方法。后续的研究主要从应用场景(处理视频还是静止的图像[79])、数据扩增[79]、多源输入[80]、反馈输入[81]、多任务[82]以及人体姿态的表示[83]这几个方面展开。Toshev等人开创了将卷积神经网络应用于人体姿态估计的先例。如图2-2所示,Toshev等人基于AlexNet提出了一种称之为DeepPose的级联架构回归人体各个关节点的坐标。为了避免卷积神经网络产生过拟合,作者使用数据集中提供的人体边界框对关节点坐标进行归一化,并将归一化之后的坐标作为网络的学习目标。对关节点坐标进行归一化这一操作非常重要,这决定了网络能否收敛,这一操作被后续基于坐标回归的方法沿用。图2-2中可以看出,DeepPose架构有多个阶段,初始阶段的网络负责学习人体关节点的粗糙位置,后续阶段网络的输入是前一阶段网络所输出粗糙位置,这一部分的网络负责学习粗糙位置相对于真实位置的偏移量。Pfister等人[79]使用卷积神经网络对视频中人体的上半身进行姿态估计。在该方法中作者将多个视频帧作为网络的输入,为了缓解过拟合现象(网络可能会过拟合人的背景区域),作者从数据集中随机采样2000个视频帧,利用视频帧计算出均值图像,然后将所输入的视频帧减去均值图像后作为网络的输入。该研究还提出了人体姿态估计中许多常用的数据扩增方法,在训练时对输入进行随机裁剪、随机水平翻转、颜色抖动等数据扩增操作。Li等人[82]提出了一种多任务的网络架构将人体部件检测和人体关节点定位同时嵌入到网络中,利用人体部件检测任务去辅助关节点回归任务。Fan等人[80]进一步提出双源多任务的人体姿态估计方法,将候选关节点区域的局部图像和人体图像同时作为网络的输入,使网络同时学习检测关节和回归关节点的坐标。由于人的视觉系统中包含有反馈连接,为了利用反馈连接改善基于坐标回归的人体姿态估计,Carriean等人[81]提出了迭代误差反馈(Iterative Error Feedback,IEF)的思想。
【相似文献】

相关期刊论文 前10条

1 彭帅;黄宏博;陈伟骏;胡志颖;袁铭阳;;基于卷积神经网络的人体姿态估计算法综述[J];北京信息科技大学学报(自然科学版);2020年03期

2 肖贤鹏;刘理想;胡莉;张华;;基于深度图像的实时多人体姿态估计[J];传感器与微系统;2020年06期

3 薛涛;;基于混合部件模型改进的人体姿态估计[J];信息与电脑(理论版);2020年10期

4 岳程宇;闫胜业;;2D人体姿态估计综述[J];现代信息科技;2020年12期

5 韩贵金;沈建冬;;二维人体姿态估计研究进展[J];西安邮电大学学报;2017年04期

6 蔡鹏;孔德慧;尹宝才;霍奕;;基于肢体调整的人体姿态估计[J];系统仿真学报;2015年10期

7 喻东山,徐捷,孙旦晖,曾彦英,高小宁,蒋晓军;利培酮对人体姿态平衡的效应[J];中国行为医学科学;2005年03期

8 东方伊人;四种常见的人体姿态[J];现代技能开发;1996年02期

9 苏延超;艾海舟;劳世竑;;图像和视频中基于部件检测器的人体姿态估计[J];电子与信息学报;2011年06期

10 何烨林;张军;;用于人体姿态估计传感的菲涅尔透镜设计[J];应用光学;2020年03期


相关博士学位论文 前10条

1 张锋;基于卷积神经网络的人体姿态估计方法研究[D];电子科技大学;2020年

2 张雯晖;人体姿态估计与姿态距离度量学习方法研究[D];北京工业大学;2019年

3 赵林;面向复杂监控环境的人体运动分析方法[D];西安电子科技大学;2017年

4 马淼;视频中人体姿态估计、跟踪与行为识别研究[D];山东大学;2017年

5 孙可;人体姿态估计的深度网络结构研究[D];中国科学技术大学;2020年

6 李弟平;基于视频的人体姿态检测与运动识别方法[D];中南大学;2012年

7 陈聪;基于人体姿态序列提取和分析的行为识别[D];华南理工大学;2012年

8 李佳;多视角三维人体运动捕捉的研究[D];北京交通大学;2013年

9 欧阳毅;单目视频中人体运动建模及姿态估计研究[D];浙江大学;2012年

10 张殿勇;基于人体模型构建的无标识运动捕捉关键技术研究[D];北京交通大学;2014年


相关硕士学位论文 前10条

1 申小凤;基于卷积神经网络的人体姿态估计研究[D];西华大学;2020年

2 张赛;基于对抗学习的人体姿态估计研究[D];中国矿业大学;2020年

3 王柳程;人体姿态点识别算法研究[D];江西理工大学;2020年

4 马瑞军;基于深度学习的多人人体姿态估计[D];天津职业技术师范大学;2019年

5 胡刚;基于图结构模型的人体姿态估计研究[D];武汉理工大学;2014年

6 孟凡辉;静态图片人体姿态估计研究[D];合肥工业大学;2012年

7 叶浩;基于关系网络的二维人体姿态回归算法研究[D];大连海事大学;2020年

8 韩利夫;基于深度学习的人体姿态估计算法研究[D];电子科技大学;2020年

9 朱靖;基于卷积神经网络的二维人体姿态估计研究[D];杭州电子科技大学;2019年

10 周亚辉;基于跨阶段深度网络的人体姿态分析[D];合肥工业大学;2019年



本文编号:2890315

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2890315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aca8b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com