基于深度学习的手部姿态估计
发布时间:2021-04-10 02:13
手部姿态估计是各种智能应用,进行活动识别的重要要求。对它的研究在计算机视觉界已经展开了数十年,并且由于深度学习的发展,低成本深度相机的推出,对于手部姿态估计的研究引起越来越多研究者的兴趣。随着深度神经网络的发展,大型手势数据集的建立,基于神经网络的三维手部姿态估计的方法优势越来越突出,但研究者把深度图像转化为二维图像作为输入,会使得深度图像中的手部姿态信息不能得到充分利用,从而影响估计精度。而把深度图像转化为三维体素进行三维卷积训练,这种数据表示会随着分辨率的增加,计算量呈指数增加,为实现有效卷积使得运算数据庞大。如果分辨率较低又会使得手部细节信息缺失。本文的方法直接利用点云数据作为输入进行手部姿态的估计,充分利用了深度图像信息,并在公开数据集上取得了很好的表现。本文主要工作内容如下:一、对深度信息的获取方法及深度相机的成像原理进行了研究,并推导出深度图像转化为点云的一种方法,应用于深度图像数据集的点云转化处理。对深度图像转化的点云进行了可视化。二、对点云数据的常见滤波器的特点及原理进行了分析研究。给出了深度图像转点云后,用少的点更多的保留图像信息的方法流程,最终将ICVL数据集里每张...
【文章来源】:西北师范大学甘肃省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
车载智能手势控制精灵现在越来越多的移动技术推出智能穿戴的产品,丰富并方便着大家的生活,如
第2章深度图像的获取及点云转换7比较复杂,而且比较消耗资源。双目相机的主要优点有:对于硬件的要求低,成本也比较低,普通的CMOS相机就能胜任;场地应用广泛,室内外都适用,对光线要求不高,只要不是过分黑暗。但双目相机的缺点也是非常明显:主要为对环境的光照变化敏感;单调缺乏纹理的场景表现不佳;计算复杂度较高。涉及到左右相机的相互特征匹配等。结构光(散斑)的优点主要有:方案比较成熟,相机方便小型化;功耗比较低;使用主动光源,因此夜晚也可以使用;在合适的范围内可以获得高精度图像。散斑结构光的缺点与结构光类似主要变现为:容易受环境光干扰,室外体验较差;随检验距离的增加,精度会因此变差。ToF深度摄像头:计算深度信息是通过测量光脉冲之间的传输延迟时间[43]。如图2.1所示,红外(IR)发射装置投射的红外线脉冲(红色波形),遇到目标物体后反射。感应器接受发射红外信号(蓝色波形),利用反射光波与测量发射之间的相位改变量(phase-delay)进而计算出深度信息。目前主流ToF深度摄像头代表产品有PMDTechnologiesCamCube2.0和MicrosoftKinectv2等。图2.1ToF相机深度信息采集原理ToF的优点主要有:检测距离较远。在激光能量足够的情况下使用,检测距离可达几十米;受环境光的干扰比较校但是ToF也有一些比较明显的问题:主要表现在其对设备的要求高,特别体现在时间测量模块;对资源的消耗较大;边缘精度较低等问题。目前,由于使用距离的限制,机构光技术的应用领域,主要在智能解锁、安全支付等方面。ToF方案由于其远距离下的噪声较低,而且同时具有更高的FPS,使其在动态场景拥有优秀的表现,在AR、VR等领域都有应用。
第2章深度图像的获取及点云转换82.1.1Kinect相机简介2009年6月1日在E3大展上Kinect首次亮相,这是第一款进入市场的深度相机,命名为XBOX360体感周围外设。我们前面介绍Kinect相机是基于飞行时间原理的摄像头,本文实验所选用的ICVL公开数据集的深度图像是用基于飞行时间原理的深度相机拍摄的,所以我们将通过对Kinect相机来介绍深度图像的成像原理及深度图像的点云转换。Kinect相机外观Kinect相机内部结构图2.2Kinect相机如图2.2为第一代Kinect相机的内部结构与外观图。该相机一共包含三个镜头从左到右依次为:红外发射器、RGB摄像头和红外接收器。由左右两个传感器共同构成了3D结构光深度传感器。红外相机帧率与彩色相机帧率都为30,彩色相机分辨率为640×480,红外相机分辨率为320×240。Kinect相机的垂直视角与水平视角分别为43°、57°,有效视距为0.8m至3.5m。2.2Kinect成像模型及图像点云转换相机成像模型如图2.3所示,我们利用空间一点P的成像原理为例来论述空间点的像素坐标系、图像坐标系、相机坐标以及世界坐标系之间的转换关系。我们通过这些坐标系的联系,最终推导出深度图像的点云信息的表达公式。本文实验选用的ICVL公开数据集深度图像的信息是以像素坐标的形式给与的,我们需要转化为世界坐标系下的点云信息,以此作为深度学习模型的输入数据。
【参考文献】:
期刊论文
[1]基于飞行时间技术的PET发展历史与现状[J]. 贠明凯,李婷,章志明,张玉包,单保慈,魏龙. 原子核物理评论. 2012(02)
[2]基于数据手套的逼真虚拟手的实现[J]. 任程,戴树岭. 系统仿真学报. 2008(22)
[3]基于立体视觉的三维建模方法[J]. 邓志东,牛建军,张竞丹. 系统仿真学报. 2007(14)
[4]人机交互的进展及面临的挑战[J]. 董士海. 计算机辅助设计与图形学学报. 2004(01)
本文编号:3128750
【文章来源】:西北师范大学甘肃省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
车载智能手势控制精灵现在越来越多的移动技术推出智能穿戴的产品,丰富并方便着大家的生活,如
第2章深度图像的获取及点云转换7比较复杂,而且比较消耗资源。双目相机的主要优点有:对于硬件的要求低,成本也比较低,普通的CMOS相机就能胜任;场地应用广泛,室内外都适用,对光线要求不高,只要不是过分黑暗。但双目相机的缺点也是非常明显:主要为对环境的光照变化敏感;单调缺乏纹理的场景表现不佳;计算复杂度较高。涉及到左右相机的相互特征匹配等。结构光(散斑)的优点主要有:方案比较成熟,相机方便小型化;功耗比较低;使用主动光源,因此夜晚也可以使用;在合适的范围内可以获得高精度图像。散斑结构光的缺点与结构光类似主要变现为:容易受环境光干扰,室外体验较差;随检验距离的增加,精度会因此变差。ToF深度摄像头:计算深度信息是通过测量光脉冲之间的传输延迟时间[43]。如图2.1所示,红外(IR)发射装置投射的红外线脉冲(红色波形),遇到目标物体后反射。感应器接受发射红外信号(蓝色波形),利用反射光波与测量发射之间的相位改变量(phase-delay)进而计算出深度信息。目前主流ToF深度摄像头代表产品有PMDTechnologiesCamCube2.0和MicrosoftKinectv2等。图2.1ToF相机深度信息采集原理ToF的优点主要有:检测距离较远。在激光能量足够的情况下使用,检测距离可达几十米;受环境光的干扰比较校但是ToF也有一些比较明显的问题:主要表现在其对设备的要求高,特别体现在时间测量模块;对资源的消耗较大;边缘精度较低等问题。目前,由于使用距离的限制,机构光技术的应用领域,主要在智能解锁、安全支付等方面。ToF方案由于其远距离下的噪声较低,而且同时具有更高的FPS,使其在动态场景拥有优秀的表现,在AR、VR等领域都有应用。
第2章深度图像的获取及点云转换82.1.1Kinect相机简介2009年6月1日在E3大展上Kinect首次亮相,这是第一款进入市场的深度相机,命名为XBOX360体感周围外设。我们前面介绍Kinect相机是基于飞行时间原理的摄像头,本文实验所选用的ICVL公开数据集的深度图像是用基于飞行时间原理的深度相机拍摄的,所以我们将通过对Kinect相机来介绍深度图像的成像原理及深度图像的点云转换。Kinect相机外观Kinect相机内部结构图2.2Kinect相机如图2.2为第一代Kinect相机的内部结构与外观图。该相机一共包含三个镜头从左到右依次为:红外发射器、RGB摄像头和红外接收器。由左右两个传感器共同构成了3D结构光深度传感器。红外相机帧率与彩色相机帧率都为30,彩色相机分辨率为640×480,红外相机分辨率为320×240。Kinect相机的垂直视角与水平视角分别为43°、57°,有效视距为0.8m至3.5m。2.2Kinect成像模型及图像点云转换相机成像模型如图2.3所示,我们利用空间一点P的成像原理为例来论述空间点的像素坐标系、图像坐标系、相机坐标以及世界坐标系之间的转换关系。我们通过这些坐标系的联系,最终推导出深度图像的点云信息的表达公式。本文实验选用的ICVL公开数据集深度图像的信息是以像素坐标的形式给与的,我们需要转化为世界坐标系下的点云信息,以此作为深度学习模型的输入数据。
【参考文献】:
期刊论文
[1]基于飞行时间技术的PET发展历史与现状[J]. 贠明凯,李婷,章志明,张玉包,单保慈,魏龙. 原子核物理评论. 2012(02)
[2]基于数据手套的逼真虚拟手的实现[J]. 任程,戴树岭. 系统仿真学报. 2008(22)
[3]基于立体视觉的三维建模方法[J]. 邓志东,牛建军,张竞丹. 系统仿真学报. 2007(14)
[4]人机交互的进展及面临的挑战[J]. 董士海. 计算机辅助设计与图形学学报. 2004(01)
本文编号:3128750
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3128750.html