当前位置:主页 > 科技论文 > 测绘论文 >

视觉SLAM的半稠密认知地图创建方法研究及实现

发布时间:2020-09-04 16:50
   地图是人类理解世界的重要工具,它不仅描绘了环境的地理地形,而且能够用于任务规划。随着移动机器人被广泛地应用到人类的生产生活中,机器人要理解环境同样离不开地图。同时定位与地图创建是移动机器人理解未知环境的关键技术,机器人通过自身搭载的传感器,在运动的过程中估计自身的位姿,同时创建环境的地图。视觉SLAM(Simultaneous Localization and Mapping),由于相机成本低、图像信息丰富、技术难度大等原因,近几年受到了广泛地关注和研究。本文提出了一种用于视觉SLAM的半稠密认知地图创建方法,利用视觉SLAM获取的位姿信息,不仅能估计出环境的较稠密的逆深度信息,而且能识别出环境中的感兴趣物体。本文的主要研究工作包括:1)基于深度滤波器实现地图点的逆深度估计,从像素层面估计逆深度。在关键帧中选取合适的地图点,采用一种“粗糙-精确”的匹配方式在参考帧中观测并更新地图点的逆深度估计。根据逆深度估计表示方法,提出一种关键帧选取策略。2)基于图像金字塔实现关键帧的逆深度图估计,从图像层面估计逆深度,主要包括逆深度图更新和逆深度图传递。在估计的过程中,并行地估计关键帧图像金字塔每一层的逆深度图;在估计结束后,将金字塔的逆深度图自上而下地传递到最底层。3)基于Mask R-CNN(Region-based Convolutional Neural Network)实现感兴趣物体的三维识别。将关键帧图像识别结果转换为一种特定形式的图像作为环境认知信息,同时使用一种新颖的地图表示方式融合关键帧的位姿、图像、逆深度、误差方差和物体识别等信息。4)设计并实现一套完整的用于视觉SLAM的半稠密认知地图创建系统,系统主要包括系统启动模块、逆深度图估计模块和地图模块。地图的“半稠密”在逆深度图估计模块中实现,地图的“认知”在地图模块中实现,并通过地图模块融为一体。实验结果表明,本文提出的用于视觉SLAM的半稠密认知地图创建方法能够较准确地估计关键帧的逆深度图并较完整地识别出关键帧中的感兴趣物体;本文提出的地图表示方式能够有效地融合关键帧的各种信息,其转换得到的半稠密认知点云地图不仅能准确地还原环境而且能标识出环境中的感兴趣的物体。
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.41;P283
【部分图文】:

地图,传感器,机器人,环境信息


机器人也越来越智能化,逐渐从实验室走到人类的日常生活中。人类在享受机器人提供的服务的同时,对机器人的智能水平提出了更高的要求,希望机器人能够提高自主性,实现智能感知、智能学习、智能决策、智能行动等。智能感知是指移动机器人通过自身搭载的传感器获取其所处的环境信息,是机器人与外界环境联系的桥梁,是实现机器人智能化的关键。同时定位与地图创建[2, 3](SimultaneousLocalizationandMapping,SLAM)是实现机器人智能感知的一种重要方式,1986 年在 IEEE 机器人和自动化会议上被首次提出[4]。在未知环境中,移动机器人通过传感器获取环境信息,在运动的过程中估计自身的位姿,并同时创建环境的地图。不同的传感器可以获取到不同类型的环境信息,形成了多种多样的 SLAM 算法。如图 1-1 所示,传感器的类型主要包括超声波传感器、相机、激光、RGB-D 相机、惯性测量单元等。基于 SLAM 的应用已经被广泛地应用于地图创建、3D 建模、自动驾驶、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)等。

二维图像,针孔模型


和姿态(朝向)。在 SLAM 中,通常使用机器人的位姿(Pose)描述和姿态。特别的,在视觉 SLAM 中,由于相机是视觉 SLAM 获取外载体,且通常相机固定在移动机器人上,所以一般情况下视觉 SLAM机的位姿。机模型将三维空间映射为一个二维图像,这个过程被称为投影;相反的,将三维空间中的过程被称为逆投影。相机模型描述了三维相机坐标系与二维像素坐标系之间的变换。模型[46]是一种最常用的相机模型,它描述了一束光线穿过针孔后,在面上投影成像的关系。针孔模型主要由相机光心、主光轴和成像平成像平面的距离被称为焦距。

框架图,增量式,视觉,框架


图 2-2 视觉 SLAM 的增量式框架1. 初始化在初始化阶段,首先需要定义一个全局坐标系,一般以第一帧图像的相机坐标系作为全局坐标系,对于双目视觉而言,一般以左相机的第一帧图像的相机坐标系作为全局坐标系;然后在全局坐标系中创建环境的初始化地图以及估计第一帧图像和第二帧图像之间的位姿变换。初始化只会在视觉 SLAM 启动时运动一次,在随后的 SLAM 过程中不会再运行。由于双目相机和 RGB-D 相机都能在不同程度上获得图像的深度信息,可以直接通过 3D-2D 或 3D-3D 等方式较好地初始化。但是,单目相机只能获取到图像信息,因此初始化问题主要集中在单目视觉 SLAM 中。在早期的视觉 SLAM 中,通过一个人工设置的特定场景进行初始化,如将相机放置在一个与二维正方形平面相距固定距离的位置,并输入相关数据[9]。这种方式需要人工

【参考文献】

相关期刊论文 前1条

1 朱博;高翔;赵燕喃;;机器人室内语义建图中的场所感知方法综述[J];自动化学报;2017年04期



本文编号:2812355

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/2812355.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户00040***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com