自顶向下的多人人体姿态估计算法研究
发布时间:2021-04-15 06:19
人体姿态估计算法是计算机视觉领域的一个基础性研究。它是行为识别、人物追踪等其他计算机视觉研究的基础。人体姿态估计可以分为单人任务和多人任务。在现实的应用场景里摄像头获得的照片或者视频中往往不止包括一个人,多人的人体姿态估计算法更能满足实际应用的需求。多人人体姿态估计任务中,图片中人体之间存在的重叠或者干扰是任务复杂性的主要来源。如何正确地检测图片中所有人体的姿态是一个极具挑战性的课题。在目前的多人人体姿态估计算法研究中,主要存在自底向上和自顶向下两个大类的算法。自底向上的方法首先检测图片中所有人体的关键点,然后对这些关键点进行聚类以形成不同的个体姿态。自顶向下的方法则首先检测人体,然后根据人体候选区域从图片中将人裁剪下来,再针对裁剪下来的图片做单人的人体姿态估计。本文主要研究基于深度学习的自顶向下的多人人体姿态估计算法,并且主要关注于其中的单人人体姿态估计部分。当图片中存在非常靠近的多个人体时,根据目标检测算法获得的人体候选区域裁剪出来的图片中很容易存在其他人体的相同局部关键点造成混淆。关键点的局部信息区分性较弱。因此需要通过全局信息来辅助分辨局部区域。本文引入非局部模块来使神经网络在...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
弹簧形变模型[33]
第2章多人人体姿态估计相关理论及算法介绍-9-然而PictorialStructure算法具有一个天生的局限性,即其不是基于图像数据构建,对于变化无穷的人体姿态不具有很好的泛化性和鲁棒性。Yang等人[34]提出了可形变部件模型(Deformablepartmodels),使用部件的混合模型来表示复杂的关键点关系。可形变部件模型是一个模板集合。这些模板的组合方式是可以发生形变的,每一个模型都包括全局模板和局部模板。通过这些模板与图像的匹配来检测或识别对象,可以很好地建模关键点之间的连接。然而,该算法没有考虑到全局信息,故其性能仍然具有较大的提升空间。2.2基于深度学习的自底向上算法与自顶向下算法近年来,深度学习技术在人体姿态估计等计算机视觉领域中大放光彩,在人体姿态估计研究领域占据主流。以深度学习为基础的多人人体姿态估计算法总体上可以分为两个大类。一类是自底向上,一类是自顶向下。a)自底向上算法流程b)自顶向下算法流程图2-2自底向上算法与自顶向下算法流程图如图2-2a)所示,自底向上的多人人体姿态估计算法主要分为两个部分。即图片输入关键点检测关键点聚类人体姿态估计结果图片输入人体检测单人人体姿态估计人体姿态估计结果人体候选区域裁剪nms
第2章多人人体姿态估计相关理论及算法介绍-11-图2-3利用AssociativeEmbedding进行人体姿态估计网络结构图[10]SemanticPartSegmentation算法将姿态估计与语义分割相结合,采用语义分割结果来协助关键点聚类。其将人体结构细分为六个不同的肢体部件,以六个人体肢体部件mask作为GroundTruth来训练网络学习关键点属于某个特定肢体部件区域的能力。如图2-4所示为具体的网络结构图。网络采用FCN来检测人体关键点,并且设计了一个概率模型图来显式地添加人体结构的先验信息。其还学习使用pair-wise关系建模相邻关键点的预测图(jointneighbor),与关键点的heatmap相结合,能够有效地构建人体图结构。算法还通过语义分割网络学习获得人体肢体语义分布图。通过一个全连接层构建的条件随机场(CRF[35],conditionalrandomfield)将关键点位置信息及肢体语义分布信息融合,进一步优化关键点位置和聚类,使得神经网络能够在肢体分布信息和关键点位置信息之间取得语义信息和空间信息的一致性。通过肢体部件分割能够有效地建模关键点之间的关系,显式地提供了人体肢体结构的空间先验知识,很好地指导网络学习,在最后的关键点聚类时也起到了连接相应关键点的作用。图2-4SemanticPartSegmentation结构图[13]部分亲和场PAFs设计了一种全新的具有丰富语义信息的GroundTruth来帮助神经网络学习如何更好地进行关键点聚类。如图2-5所示,PAFs不仅有像素
本文编号:3138812
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
弹簧形变模型[33]
第2章多人人体姿态估计相关理论及算法介绍-9-然而PictorialStructure算法具有一个天生的局限性,即其不是基于图像数据构建,对于变化无穷的人体姿态不具有很好的泛化性和鲁棒性。Yang等人[34]提出了可形变部件模型(Deformablepartmodels),使用部件的混合模型来表示复杂的关键点关系。可形变部件模型是一个模板集合。这些模板的组合方式是可以发生形变的,每一个模型都包括全局模板和局部模板。通过这些模板与图像的匹配来检测或识别对象,可以很好地建模关键点之间的连接。然而,该算法没有考虑到全局信息,故其性能仍然具有较大的提升空间。2.2基于深度学习的自底向上算法与自顶向下算法近年来,深度学习技术在人体姿态估计等计算机视觉领域中大放光彩,在人体姿态估计研究领域占据主流。以深度学习为基础的多人人体姿态估计算法总体上可以分为两个大类。一类是自底向上,一类是自顶向下。a)自底向上算法流程b)自顶向下算法流程图2-2自底向上算法与自顶向下算法流程图如图2-2a)所示,自底向上的多人人体姿态估计算法主要分为两个部分。即图片输入关键点检测关键点聚类人体姿态估计结果图片输入人体检测单人人体姿态估计人体姿态估计结果人体候选区域裁剪nms
第2章多人人体姿态估计相关理论及算法介绍-11-图2-3利用AssociativeEmbedding进行人体姿态估计网络结构图[10]SemanticPartSegmentation算法将姿态估计与语义分割相结合,采用语义分割结果来协助关键点聚类。其将人体结构细分为六个不同的肢体部件,以六个人体肢体部件mask作为GroundTruth来训练网络学习关键点属于某个特定肢体部件区域的能力。如图2-4所示为具体的网络结构图。网络采用FCN来检测人体关键点,并且设计了一个概率模型图来显式地添加人体结构的先验信息。其还学习使用pair-wise关系建模相邻关键点的预测图(jointneighbor),与关键点的heatmap相结合,能够有效地构建人体图结构。算法还通过语义分割网络学习获得人体肢体语义分布图。通过一个全连接层构建的条件随机场(CRF[35],conditionalrandomfield)将关键点位置信息及肢体语义分布信息融合,进一步优化关键点位置和聚类,使得神经网络能够在肢体分布信息和关键点位置信息之间取得语义信息和空间信息的一致性。通过肢体部件分割能够有效地建模关键点之间的关系,显式地提供了人体肢体结构的空间先验知识,很好地指导网络学习,在最后的关键点聚类时也起到了连接相应关键点的作用。图2-4SemanticPartSegmentation结构图[13]部分亲和场PAFs设计了一种全新的具有丰富语义信息的GroundTruth来帮助神经网络学习如何更好地进行关键点聚类。如图2-5所示,PAFs不仅有像素
本文编号:3138812
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3138812.html
最近更新
教材专著