语义地图及其关键技术研究
发布时间:2020-12-14 01:45
在深度学习快速发展的背景下,语义地图成为了SLAM(Simultaneous Localization and Mapping)领域研究的热点,并得到大量研究人员的关注。语义地图通过基于神经网络的语义分割、物体检测、实例分割等技术应用于SLAM建图方法中来实现对周围环境及物体的理解。该方与主流的视觉SLAM方法的不同之处在于其不是通过对基于底层像素层级的特征点来估计相机的运动姿势及环境建图,而是通过利用环境物体中的语义信息来辅助建图。这种方式相对于传统的SLAM建图方法而言更符合人类视觉系统的原理。此外,随着产品级深度采集设备的普及,为在可见光环境条件下的物体检测及物体语义分割算法提供了物理上的技术支持,为构建环境语义地图及物体识别的算法提供了性能优势。本文针对如何构建稳定有效的环境语义地图这一研究课题,从理解环境语义信息,识别环境物体信息,构建鲁棒的动态语义地图三个层面的问题进行分析,分别对环境语义信息识别、拓扑节点识别,小样本物体识别、动态环境下语义地图构建,环境物体数据库构建等多个方面进行研究。本文的主要贡献点包括:1、我们提出了一种构建拓扑环境语义地图的方法。该方法通过卷积神经...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
[9]语义定位效果
ECCV 2018中的工作VSO[10]与之类似,目前无论是基于特征的ORB-SLAM还是直接法的LSD-SLAM[1]或者DSO-SLAM[11]都不能连续跟踪一个点持续很长距离。因为它们的特征点对视角和光照变化并不鲁棒。该论文的主要思想就是通过判断与目标类别语义区域的远近来量化重投影误差从而建立图像间的语义信息约束,语义信息不会受到视角,尺度,光照的影响。就像不同的角度、距离、光线甚至桌子上有不同物体时,我们都知道是同一张桌子。2、通过语义信息去除动态区域辅助SLAM建图
在思路二中,通过语义信息来推断出动态区域,从而减少对SLAM建图过程中的干扰。传统SLAM方法几乎都是假设当前场景是静态的,当面对含有运动物体的场景时,运动物体上的特征点将对相机位姿估计的可靠性产生巨大影响。要解决这类问题主要方法是去掉环境中对建图造成影响的动态特征点。现有的主流方法是通过语义分割算法找到并去掉这些动态特征点。其语义分割算法的意义主要有两方面,一是依据物体轮廓,把图像区域中的许多特征点聚类,根据这些特征点前后帧之间的深度变化来判断其运动信息。如果检测到有大量关联特征点的深度信息发生较大变化时则可以认为是该物体正在运动。例如:[12]主要提出了一种结合语义信息和运动特征点检测来滤除每一帧中的动态物体的方法。其贡献点主要在于1、基于ORB-SLAM2提出了一个更适于处理动态场景的SLAM系统,并在TUM RGBD数据集和真实场景中进行了效果验证;2、建立了一个用Octo-Tree表示的稠密语义地图。实验表明,在高运动的场景中,该方法与ORB-SLAM2相比提升明显。另一类方法如[13],该文章主要将现有视觉SLAM系统与语义分割神经网络算法结合,通过语义分割的结果来识别动态特征点属性标签,利用较为暴力地方式,直接排除某些区域的特征点。例如,当特征点在人、天空、车辆的轮廓内则认为是动态特征点,如果是墙面,地面等则认为是静态特征点。
本文编号:2915572
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
[9]语义定位效果
ECCV 2018中的工作VSO[10]与之类似,目前无论是基于特征的ORB-SLAM还是直接法的LSD-SLAM[1]或者DSO-SLAM[11]都不能连续跟踪一个点持续很长距离。因为它们的特征点对视角和光照变化并不鲁棒。该论文的主要思想就是通过判断与目标类别语义区域的远近来量化重投影误差从而建立图像间的语义信息约束,语义信息不会受到视角,尺度,光照的影响。就像不同的角度、距离、光线甚至桌子上有不同物体时,我们都知道是同一张桌子。2、通过语义信息去除动态区域辅助SLAM建图
在思路二中,通过语义信息来推断出动态区域,从而减少对SLAM建图过程中的干扰。传统SLAM方法几乎都是假设当前场景是静态的,当面对含有运动物体的场景时,运动物体上的特征点将对相机位姿估计的可靠性产生巨大影响。要解决这类问题主要方法是去掉环境中对建图造成影响的动态特征点。现有的主流方法是通过语义分割算法找到并去掉这些动态特征点。其语义分割算法的意义主要有两方面,一是依据物体轮廓,把图像区域中的许多特征点聚类,根据这些特征点前后帧之间的深度变化来判断其运动信息。如果检测到有大量关联特征点的深度信息发生较大变化时则可以认为是该物体正在运动。例如:[12]主要提出了一种结合语义信息和运动特征点检测来滤除每一帧中的动态物体的方法。其贡献点主要在于1、基于ORB-SLAM2提出了一个更适于处理动态场景的SLAM系统,并在TUM RGBD数据集和真实场景中进行了效果验证;2、建立了一个用Octo-Tree表示的稠密语义地图。实验表明,在高运动的场景中,该方法与ORB-SLAM2相比提升明显。另一类方法如[13],该文章主要将现有视觉SLAM系统与语义分割神经网络算法结合,通过语义分割的结果来识别动态特征点属性标签,利用较为暴力地方式,直接排除某些区域的特征点。例如,当特征点在人、天空、车辆的轮廓内则认为是动态特征点,如果是墙面,地面等则认为是静态特征点。
本文编号:2915572
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2915572.html