人体姿态估计的深度网络结构研究
发布时间:2021-04-14 01:29
人体姿态估计任务是计算机视觉领域中极具挑战性的问题之一,目标是检测出图像数据中人体的关键节点,比如头部、肩膀、臀部,在行人检测、重识别,行为识别、预测,人机交互等领域都有着广泛的应用。在近些年,随着深度学习和深度神经网络的引入,人体姿态估计的算法性能得到飞跃式的提升,其中最主要的原因就在于深度网络结构的不断革新。人体姿态估计网络框架主要分为两个部分:人体结构应用网络和关键点检测网络。本文中通过对人体姿态及估计任务本身特点的理解和分析,设计了新的人体结构应用网络框架和关键点检测网络。同时,本文中还对所提出的关键点检测网络在相似或相关视觉任务上的推广性进行了研究,如图像分类和语义分割任务。本文的主要工作包括:人体结构应用网络中的全局和局部姿态归一化。人体姿态的高自由度衍生出了复杂多样的关键点相对位置关系,对人体结构建模造成了巨大挑战。本文提出了全局和局部的姿态归一化模块,通过从全局再到局部的归一化设计,逐步降低人体姿态的自由度,将多样的人体姿态变换到一个标准姿态附近,使得关键点之间的相对位置分布更加集中,关系更为单一,从而可以通过少量的参数量构建更有效的人体结构模型。高分辨率关键点检测网络...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:109 页
【学位级别】:博士
【部分图文】:
图1.2?DeepPose122丨初始坐标回归网络
?第1章绪?论???IrfTB??图1.3?DeepPose1221中的级联网络。图来源于DeepPose1221。??在这个过程中,可以发现每个关键点都需要从原图中截取一个区域子图像,??然后送入网络进行训练。每个阶段的网络由于输入图像的特性不同,回归残差的??数值范围不同,不能重复采用同一个网络进行学习和预测,因此作者为每个阶段??都单独训练一个网络。这使得网络实际并不能端到端的整体进行训练,并且整个??网络的参数量也随着网络级数的增加呈线性的增长。??③IEF网络结构??IEF[23]在整体上采用了与DeepPose[22]相同的级联网络框架。其中的网络主??体/(?)采用的是GoogleNet[25]结构。其中最主要的不同在于IEF[23]网络的输入??包含两个部分,原始图像和关键点的高斯掩码。其中关键点的高斯掩码是以关键??点坐标为中心利用高斯函数g〇生成的。通过这个高斯掩码来告诉网络当前关键??点的坐标位置,类似于注意力模型,以便网络能够利用这个指导信息来获取关键??点的局部信息。??与DeepP〇Se[22]相比,IEF[23】在网络进行逐级递进的过程中输入图像始终保??持为原始图像,而非DeepP〇Se[22]中既有原始图像还有局部图像。这样就保证了输??入图像空间的一致性。然后通过加入关键点高斯掩码的方式,替代了?DeepPose^l??以截取局部图像的方式获取局部细节信息。这种关键点高斯掩码的设计,在后续??的工作中被广泛沿用。??(2)热力图预测网络??在坐标回归网络中,关键点的定位精度始终无法达到预期。热力图则作为另??一种预测目标出现在了人体姿态估计任务中。??输入图像与相应的
?第1章绪?论???图1.4输入图像和相应的热力图标注。实际每一类关键点有独立的热力图标注,这里为了??可视化简洁,将不同关键点的热力图放在同一张图中显示。??像素的分类,相对于坐标回归网络,这极大的降低了网络的学习难度。由于对表??征空间分辨率的高度需求与坐标回归网络截然不同,在网络结构上也就存在着??明显的差异。热力图预测网络在结构设计中,不仅注重提升特征的分类性能,同??时也注重对表征分辨率的恢复和保持,期望获取既具有高分辨率又具有强分类??性能的表征。??由于热力图预测网络的优越性能,在近些年坐标回归网络己经基本淡出了??人体姿态估计任务,主要都以热力图为预测目标的网络为主。热力图预测网络也??分为两个主要研究方向:其一是以对人体结构建模为主的人体结构应用网络,另??一类是专注关键点定位性能的关键点检测网络。??①问题定义??热力图预测的方法将人体姿态估计问题建模成一个像素级标注问题(pixel-??wise?labeling)。?将关键点对应的预测目标表示成?Y?=(??.,!%??.),/e?{l,...,fc},?其??中V是第/个关键点所对应的热力图,热力图由提前定义好的高斯函数生成得??至!J。热力图X中每个位置的像素值,代表了这个位置属于关键点的概率。在给??定一个输入图像/,通过以下方式进行坐标的预测??Y?=?f{I-6)?(1.5)??其中f是预测出的热力图,/(?)是用于进行热力图估计的函数,这里一般采用??的全卷积网络,0是网络中可学习的模型参数。??在损失函数上以L2损失以及损失两种为主,目前采用L2损失来??对网络模型参数进行优化的较多??7??
本文编号:3136387
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:109 页
【学位级别】:博士
【部分图文】:
图1.2?DeepPose122丨初始坐标回归网络
?第1章绪?论???IrfTB??图1.3?DeepPose1221中的级联网络。图来源于DeepPose1221。??在这个过程中,可以发现每个关键点都需要从原图中截取一个区域子图像,??然后送入网络进行训练。每个阶段的网络由于输入图像的特性不同,回归残差的??数值范围不同,不能重复采用同一个网络进行学习和预测,因此作者为每个阶段??都单独训练一个网络。这使得网络实际并不能端到端的整体进行训练,并且整个??网络的参数量也随着网络级数的增加呈线性的增长。??③IEF网络结构??IEF[23]在整体上采用了与DeepPose[22]相同的级联网络框架。其中的网络主??体/(?)采用的是GoogleNet[25]结构。其中最主要的不同在于IEF[23]网络的输入??包含两个部分,原始图像和关键点的高斯掩码。其中关键点的高斯掩码是以关键??点坐标为中心利用高斯函数g〇生成的。通过这个高斯掩码来告诉网络当前关键??点的坐标位置,类似于注意力模型,以便网络能够利用这个指导信息来获取关键??点的局部信息。??与DeepP〇Se[22]相比,IEF[23】在网络进行逐级递进的过程中输入图像始终保??持为原始图像,而非DeepP〇Se[22]中既有原始图像还有局部图像。这样就保证了输??入图像空间的一致性。然后通过加入关键点高斯掩码的方式,替代了?DeepPose^l??以截取局部图像的方式获取局部细节信息。这种关键点高斯掩码的设计,在后续??的工作中被广泛沿用。??(2)热力图预测网络??在坐标回归网络中,关键点的定位精度始终无法达到预期。热力图则作为另??一种预测目标出现在了人体姿态估计任务中。??输入图像与相应的
?第1章绪?论???图1.4输入图像和相应的热力图标注。实际每一类关键点有独立的热力图标注,这里为了??可视化简洁,将不同关键点的热力图放在同一张图中显示。??像素的分类,相对于坐标回归网络,这极大的降低了网络的学习难度。由于对表??征空间分辨率的高度需求与坐标回归网络截然不同,在网络结构上也就存在着??明显的差异。热力图预测网络在结构设计中,不仅注重提升特征的分类性能,同??时也注重对表征分辨率的恢复和保持,期望获取既具有高分辨率又具有强分类??性能的表征。??由于热力图预测网络的优越性能,在近些年坐标回归网络己经基本淡出了??人体姿态估计任务,主要都以热力图为预测目标的网络为主。热力图预测网络也??分为两个主要研究方向:其一是以对人体结构建模为主的人体结构应用网络,另??一类是专注关键点定位性能的关键点检测网络。??①问题定义??热力图预测的方法将人体姿态估计问题建模成一个像素级标注问题(pixel-??wise?labeling)。?将关键点对应的预测目标表示成?Y?=(??.,!%??.),/e?{l,...,fc},?其??中V是第/个关键点所对应的热力图,热力图由提前定义好的高斯函数生成得??至!J。热力图X中每个位置的像素值,代表了这个位置属于关键点的概率。在给??定一个输入图像/,通过以下方式进行坐标的预测??Y?=?f{I-6)?(1.5)??其中f是预测出的热力图,/(?)是用于进行热力图估计的函数,这里一般采用??的全卷积网络,0是网络中可学习的模型参数。??在损失函数上以L2损失以及损失两种为主,目前采用L2损失来??对网络模型参数进行优化的较多??7??
本文编号:3136387
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3136387.html