基于深度学习的相机位姿估计方法研究
发布时间:2021-07-02 08:11
近几年,随着人工智能在我国的迅速发展,智慧城市背景下的无人驾驶与机器人研究成为新的研究热点,视觉SLAM(Simultaneous Localization and Mapping,SLAM)正是该领域十分重要的研究内容。其中,相机位姿估计问题是视觉SLAM问题的核心。相机位姿估计是指在多张场景或者目标图像中,估计图像间相机运动的变化情况。在这个过程中,图像间的旋转、光度变化、运动幅度的变化以及纹理稀疏等问题,会大大影响相机位姿估计的准确性,进而影响无人驾驶技术与机器人在环境中的定位、建图与识别等一系列任务。本文将影响相机位姿估计问题的原因分为内外两个因素,内在因素是相机本身运动对估计的影响,外在因素是外界环境对特征处理的影响。具体来说,全文在大尺度运动变换与多类室内环境中结合深度学习方法研究了相机的位姿估计任务,帮助视觉SLAM稳定可靠完成定位建图。本文的工作内容如下:(一)针对相机在空间中大尺度的运动估计问题,本文提出了基于稠密特征的运动变换预测方法。该方法将原图像与目标图像看作一个整体,从全局计算图像对的特征相似性,用以预测图像对之间的运动变换。整体方法首先采用特征金字塔的方式提...
【文章来源】:山西大学山西省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
视觉SLAM系统框架
第二章相关内容过程可以通过一个几何模型进行描述。在本节使用最常用的针孔相机模型对这种空间映射进行建模。图2.2针孔相机模型示意图图2.2是针孔相机模型的示意图。在图中包含有两个三维空间坐标系,分别是代表三维空间的世界坐标系(原点用O表示)与代表相机位置的相机坐标系(原点用C表示)。另外,还有一个二维的图像平面所处的图像坐标系(原点用o表示),称其为像平面。相机坐标系的原点为相机镜头透镜的中心,称其为光心。相机坐标系的Zc轴(主轴)垂直于图像平面交于图像坐标系于一点o,称该点为主点。在图中,点a与A分别是图像中的投影点与世界坐标系中的三维点,两者之间的转换公式可由下式得到:(a1)=P(A1)(2.1)其中,[a,1]T和[A,1]T分别是图像像素点和空间三维点的齐次坐标形式。相机的投影矩阵P是一个3×4的矩阵,它可以写成如下形式:P=K[R|t](2.2)上式中的K是相机的内参数矩阵(CameraIntrinsics),内参一般在相机出厂之后就固定了,具体形式如式2.3。K=fx0u0fyv001(2.3)式2.3中的参数fx和fy分别是相机x与y方向上的焦距,(u,v)是像平面o点的9
基于深度学习的相机位姿估计方法研究坐标,也就是主点的坐标。此外,式2.2中的R和t表示相机的外参数,分别表示相机在世界坐标系下的旋转量与平移量。对于本文研究的内容则是根据图像对预测相机运动的参数表达。(2)基于特征点法的前端视觉里程计。基于特征点法的前端视觉里程计是目前较为成熟的解决方案。在计算机视觉领域,研究人员已经设计了多种特征描述方法,比如SIFT、SURF、ORB等。当通过特征提取方法对图像进行合适的特征收集与描述后,就可以为视觉SLAM进行特征匹配。特征匹配是视觉里程计中极为重要的一步,它为视觉SLAM系统建立了数据间的联系。若在特征匹配的阶段可以精准匹配,则可以为后续的姿态估计、后端优化等步骤减少大量误差。图2.3对极几何约束图2.3是对极几何约束图,通过对极几何的方式对相机位姿变换进行度量。在得到一组配对的特征对后便可以通过二维图像中的对应关系,恢复相机在两帧图像之间的运动变换。设两帧之间的运动方式为R、t。O1、O2是两个相机位置的中心位置。在I1中有一个特征点p1,它在I2中的对应特征点为p2。首先,过O1、p1和O2、p2的直线在三维空间中相交与点P,由O1、O2、P三个点可以确定一个平面,称其为极平面。O1、O2的连线与两张图像的交点分别为e1、e2,它们被称作极点。O1、O2被称作基线。三个平面之间相交的线l1、l2为极线。由于O1、O2、P三点共面,根据共面的几何性质,可以得到如下式:→O1p1·(→O1O2×→O1p2)=0(2.4)10
【参考文献】:
期刊论文
[1]《中国新一代人工智能发展报告2019》显示 我国多层次AI人才培养体系逐步形成[J]. 项阳. 中国教育网络. 2019(06)
本文编号:3260097
【文章来源】:山西大学山西省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
视觉SLAM系统框架
第二章相关内容过程可以通过一个几何模型进行描述。在本节使用最常用的针孔相机模型对这种空间映射进行建模。图2.2针孔相机模型示意图图2.2是针孔相机模型的示意图。在图中包含有两个三维空间坐标系,分别是代表三维空间的世界坐标系(原点用O表示)与代表相机位置的相机坐标系(原点用C表示)。另外,还有一个二维的图像平面所处的图像坐标系(原点用o表示),称其为像平面。相机坐标系的原点为相机镜头透镜的中心,称其为光心。相机坐标系的Zc轴(主轴)垂直于图像平面交于图像坐标系于一点o,称该点为主点。在图中,点a与A分别是图像中的投影点与世界坐标系中的三维点,两者之间的转换公式可由下式得到:(a1)=P(A1)(2.1)其中,[a,1]T和[A,1]T分别是图像像素点和空间三维点的齐次坐标形式。相机的投影矩阵P是一个3×4的矩阵,它可以写成如下形式:P=K[R|t](2.2)上式中的K是相机的内参数矩阵(CameraIntrinsics),内参一般在相机出厂之后就固定了,具体形式如式2.3。K=fx0u0fyv001(2.3)式2.3中的参数fx和fy分别是相机x与y方向上的焦距,(u,v)是像平面o点的9
基于深度学习的相机位姿估计方法研究坐标,也就是主点的坐标。此外,式2.2中的R和t表示相机的外参数,分别表示相机在世界坐标系下的旋转量与平移量。对于本文研究的内容则是根据图像对预测相机运动的参数表达。(2)基于特征点法的前端视觉里程计。基于特征点法的前端视觉里程计是目前较为成熟的解决方案。在计算机视觉领域,研究人员已经设计了多种特征描述方法,比如SIFT、SURF、ORB等。当通过特征提取方法对图像进行合适的特征收集与描述后,就可以为视觉SLAM进行特征匹配。特征匹配是视觉里程计中极为重要的一步,它为视觉SLAM系统建立了数据间的联系。若在特征匹配的阶段可以精准匹配,则可以为后续的姿态估计、后端优化等步骤减少大量误差。图2.3对极几何约束图2.3是对极几何约束图,通过对极几何的方式对相机位姿变换进行度量。在得到一组配对的特征对后便可以通过二维图像中的对应关系,恢复相机在两帧图像之间的运动变换。设两帧之间的运动方式为R、t。O1、O2是两个相机位置的中心位置。在I1中有一个特征点p1,它在I2中的对应特征点为p2。首先,过O1、p1和O2、p2的直线在三维空间中相交与点P,由O1、O2、P三个点可以确定一个平面,称其为极平面。O1、O2的连线与两张图像的交点分别为e1、e2,它们被称作极点。O1、O2被称作基线。三个平面之间相交的线l1、l2为极线。由于O1、O2、P三点共面,根据共面的几何性质,可以得到如下式:→O1p1·(→O1O2×→O1p2)=0(2.4)10
【参考文献】:
期刊论文
[1]《中国新一代人工智能发展报告2019》显示 我国多层次AI人才培养体系逐步形成[J]. 项阳. 中国教育网络. 2019(06)
本文编号:3260097
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3260097.html