基于深度学习的动态场景语义SLAM
发布时间:2021-09-07 00:35
提出一种利用深度学习提高动态环境下视觉语义即时定位与地图构建(SLAM)的方法.首先用实例分割网络对关键帧进行实例分割,建立先验语义信息;然后计算特征点光流场对物体进一步区分,识别出场景真正运动物体并将属于动态物体的特征点去除;最后进行语义关联,建立无动态物体干扰的语义地图.将本文方法在室内环境公开数据集中测试,结果表明该方法可有效消除动态物体对建图的影响,提高建图精度.
【文章来源】:华中科技大学学报(自然科学版). 2020,48(01)北大核心EICSCD
【文章页数】:6 页
【部分图文】:
算法流程Mask-RCNN[9]是在Faster-RCNN基础上扩展了
第1期房立金,等:基于深度学习的动态场景语义SLAM·125·图3序列估计值与真实值之间的误差曲线4.2三维点云地图语义匹配实验在点云实验过程中,通过Mask-RCNN深度学习网络的语义信息结合光流场可去除动态特征点,进而计算出动态环境下相机轨迹.通过相机轨迹与深度图可计算出相机运动过程中的三维点云地图,如图4所示.若不考虑动态场景中人物变化,则产生图4(a)效果,这不利于机器人导航任务.图4(e)为深度图像经过区域生长之后物体边缘示意图.相比于神经网络的直接输出边缘信息(图4(c)),图4(e)所采用的图4三维点云地图方法更加贴合深度图像.从图4(f)可以看出:彩色图像的语义信息与深度图像边缘互相融合投影到三维点云空间中,不再存在边缘不对齐的现象.经过动态物体删除之后的语义地图如图4(b)所示,场景中移动的人被去除,右侧座椅因在序列前段并未移动,保留了部分信息.相比于图4(a),图4(b)更具有可读性,可用于机器人的室内导航等任务.在实时性方面,本实验采用INTERi7CPU,内存8GiB,NVIDIA2080TIGPU,显存16GiB进行实验.光流计算是建立在特征提取的基础上进行的,因为仅跟踪特征点光流信息,克服了直接法中的对所有像素进行计算的缺点,所以第一线程速度可达30帧/s.受限于GPU计算能力,深度学习网络Mask-RCNN在本实验计算机上速度为5~6帧/s,所以受第二线程影响,总计算速度为5帧/s左右,基本达到实时要求.5结语通过实例分割网络Mask-RCNN对视觉SLAM中的关键帧,赋予图像语义信息,再由光流计算背景运动阈值,并分辨出实例中运动物体.相比于仅
本文编号:3388500
【文章来源】:华中科技大学学报(自然科学版). 2020,48(01)北大核心EICSCD
【文章页数】:6 页
【部分图文】:
算法流程Mask-RCNN[9]是在Faster-RCNN基础上扩展了
第1期房立金,等:基于深度学习的动态场景语义SLAM·125·图3序列估计值与真实值之间的误差曲线4.2三维点云地图语义匹配实验在点云实验过程中,通过Mask-RCNN深度学习网络的语义信息结合光流场可去除动态特征点,进而计算出动态环境下相机轨迹.通过相机轨迹与深度图可计算出相机运动过程中的三维点云地图,如图4所示.若不考虑动态场景中人物变化,则产生图4(a)效果,这不利于机器人导航任务.图4(e)为深度图像经过区域生长之后物体边缘示意图.相比于神经网络的直接输出边缘信息(图4(c)),图4(e)所采用的图4三维点云地图方法更加贴合深度图像.从图4(f)可以看出:彩色图像的语义信息与深度图像边缘互相融合投影到三维点云空间中,不再存在边缘不对齐的现象.经过动态物体删除之后的语义地图如图4(b)所示,场景中移动的人被去除,右侧座椅因在序列前段并未移动,保留了部分信息.相比于图4(a),图4(b)更具有可读性,可用于机器人的室内导航等任务.在实时性方面,本实验采用INTERi7CPU,内存8GiB,NVIDIA2080TIGPU,显存16GiB进行实验.光流计算是建立在特征提取的基础上进行的,因为仅跟踪特征点光流信息,克服了直接法中的对所有像素进行计算的缺点,所以第一线程速度可达30帧/s.受限于GPU计算能力,深度学习网络Mask-RCNN在本实验计算机上速度为5~6帧/s,所以受第二线程影响,总计算速度为5帧/s左右,基本达到实时要求.5结语通过实例分割网络Mask-RCNN对视觉SLAM中的关键帧,赋予图像语义信息,再由光流计算背景运动阈值,并分辨出实例中运动物体.相比于仅
本文编号:3388500
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/3388500.html