基于激光点云的复杂三维场景多态目标语义分割技术研究
发布时间:2020-12-06 06:32
三维激光扫描系统以其稳定的环境感知能力已成为获取三维空间信息的一种重要手段,它能够快速获取大规模自然场景的三维点云数据。激光点云含有被测场景物体表面丰富的语义信息,具有海量、高密度以及高精度等特性,已成为用来理解、分析和语义解译三维自然场景的一种主要数据类型,被广泛应用于城市规划、无人驾驶、全球制图、智慧交通、文物保护、虚拟现实以及基础测绘等领域。近年来,基于三维点云数据的复杂场景多态目标语义分割技术的研究也已取得长足的发展;然而,现有算法还存在如下几个方面的问题:(1)过度依赖于人工定义的特征,提取语义类别单一;(2)数据预处理复杂,计算量大,算法复杂度高,自动化、智能化程度较低;(3)跨平台性差,公开基准数据集短缺;(4)激光点云通常只包括三维坐标和反射强度信息,缺少丰富的光谱信息以及点与点之间的空间拓扑关系。另外,由于真实自然场景复杂,三维目标之间存在不同程度的重叠、遮挡等现象,研究自动化、智能化、鲁棒的复杂三维场景多态目标语义分割技术及其在各个领域的应用具有重要的理论价值和现实意义。本文针对复杂场景多态目标的快速、高精度、自动语义分割技术展开研究,主要包括以下四个方面的内容:1...
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:149 页
【学位级别】:博士
【部分图文】:
HuangJ-3DCNN卷积神经网络结构
LiDAR 点云数据集(包括一个机载扫描数据和四个车载扫描数据)均没有公开,后续研究者无法对文中呈现的各位目标的精度进行验证。因此,不同的研究人员都致力于创建能够直接使用非结构化 3D 点云或网格的深层体系结构。比如下面要介绍的 PointNet 和PointNet++。(2)PointNetPointnet 由斯坦福大学的 Charles 等人于 2017 年 4 月提出,属于深度学习成功应用于三维点云的一项开创性的工作,以原始点云为深度神经网络的输入,为分类(classification)、构件分割(part segmentation)和场景语义分割(semantic segmentation)提供了统一的体系结构。图 1.2 显示了其网络结构,包含分类和分割两个子结构。网络输入 n*3 的数据,n就是采样点的个数,3 表示三维坐标。经过几步多层感知器(Multi Layer Perceptrons, MLP)获得 n*1024 维的采样点特征,然后使用 max pooling 进行对称操作得到 1024 维的整体特征(global feature)。其中在分类模型(Classification)中直接经过几层降维输出 softmax 分类概率,而分割模型(Segmentation)中要将整体特征串接到采样点特征之后再进行多层网络输出。
PointNet++是一种分层神经网络,先对点云进行采样(sampling)和区域划分(grouping)然后在各个小区域内递归地采用 PointNet 网络进行特征提取,最后对点云的全局和局部特征进行融合(把全局特征矩阵与局部特征矩阵累加)。由于点云通常是在不同密度下采样的,从而导致在均匀密度上训练的网络的性能大大降低,为了解决非均匀点采样问题,PointNet++提出了两个新的集合抽象层,根据局部点密度智能地学习多尺度的特征,模型结构如图 1.3 所示。其重点就在于区域的划分,即确定每个区域的中心位置和区域的半径关于区域中心位置的选择,采用了一种名为 farthest point sampling (FPS) algorithm 的采样方法。而关于区域的半径,提出了多尺度划分(Multi-scale grouping, MSG)和多分辨率划分(Multi-resolution grouping, MRG)两种方法。前者计算量极大,因为点云数据本身属于海量数据,若一直变尺度地提取特征,特别是尺度较小时,时间成本会过高。而后者将从较低层提取的特征与通过 PointNet 处理局部区域中的原始点获得的特征进行融合,这样不但可以避免这种昂贵的计算,同时还保留了根据点的分布特性自适应地聚合信息的能力。PointNet++在 ScanNet 数据集上取得了 73.9%的准确率,但 ScanNet 为大规模 3D 室内场景RGB-D 数据集,而非点云数据集,该模型没有提供在 Stanford 2D-3D-S 上的分割结果。
本文编号:2900900
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:149 页
【学位级别】:博士
【部分图文】:
HuangJ-3DCNN卷积神经网络结构
LiDAR 点云数据集(包括一个机载扫描数据和四个车载扫描数据)均没有公开,后续研究者无法对文中呈现的各位目标的精度进行验证。因此,不同的研究人员都致力于创建能够直接使用非结构化 3D 点云或网格的深层体系结构。比如下面要介绍的 PointNet 和PointNet++。(2)PointNetPointnet 由斯坦福大学的 Charles 等人于 2017 年 4 月提出,属于深度学习成功应用于三维点云的一项开创性的工作,以原始点云为深度神经网络的输入,为分类(classification)、构件分割(part segmentation)和场景语义分割(semantic segmentation)提供了统一的体系结构。图 1.2 显示了其网络结构,包含分类和分割两个子结构。网络输入 n*3 的数据,n就是采样点的个数,3 表示三维坐标。经过几步多层感知器(Multi Layer Perceptrons, MLP)获得 n*1024 维的采样点特征,然后使用 max pooling 进行对称操作得到 1024 维的整体特征(global feature)。其中在分类模型(Classification)中直接经过几层降维输出 softmax 分类概率,而分割模型(Segmentation)中要将整体特征串接到采样点特征之后再进行多层网络输出。
PointNet++是一种分层神经网络,先对点云进行采样(sampling)和区域划分(grouping)然后在各个小区域内递归地采用 PointNet 网络进行特征提取,最后对点云的全局和局部特征进行融合(把全局特征矩阵与局部特征矩阵累加)。由于点云通常是在不同密度下采样的,从而导致在均匀密度上训练的网络的性能大大降低,为了解决非均匀点采样问题,PointNet++提出了两个新的集合抽象层,根据局部点密度智能地学习多尺度的特征,模型结构如图 1.3 所示。其重点就在于区域的划分,即确定每个区域的中心位置和区域的半径关于区域中心位置的选择,采用了一种名为 farthest point sampling (FPS) algorithm 的采样方法。而关于区域的半径,提出了多尺度划分(Multi-scale grouping, MSG)和多分辨率划分(Multi-resolution grouping, MRG)两种方法。前者计算量极大,因为点云数据本身属于海量数据,若一直变尺度地提取特征,特别是尺度较小时,时间成本会过高。而后者将从较低层提取的特征与通过 PointNet 处理局部区域中的原始点获得的特征进行融合,这样不但可以避免这种昂贵的计算,同时还保留了根据点的分布特性自适应地聚合信息的能力。PointNet++在 ScanNet 数据集上取得了 73.9%的准确率,但 ScanNet 为大规模 3D 室内场景RGB-D 数据集,而非点云数据集,该模型没有提供在 Stanford 2D-3D-S 上的分割结果。
本文编号:2900900
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/2900900.html