基于深度学习的三维模型识别算法研究
发布时间:2021-11-18 05:15
三维模型的数量日渐增多,然而手动标注三维模型需要占用额外的人力资源,效率较低。基于人工设计特征的三维模型识别精度较低。虽然卷积网络在图像分类和目标检测等各种视觉应用中有良好的表现,但大量池化层的引入会导致特征空间信息丢失。而胶囊网络(Capsnet)通过向量神经元保存特征的空间属性,对模型的变化具有更好的鲁棒性,因此可将胶囊网络应用于三维模型识别中来学习三维模型的特征信息。本文主要研究内容如下:(1)在三维模型识别任务中,针对池化层数量过多导致特征空间信息丢失的问题,依据胶囊网络的特性,提出了一种用以识别三维模型的3DSPNCapsNet(3D Small Pooling No dense Capsule Networks)网络模型。首先,将三维模型体素化为可以输入网络的数据类型;其次,使用新的网络结构提取更具代表性的特征;最后,提出基于动态路由算法(dynamic routing algorithm,DR)的DRL(dynamic routing-based algorithmwith length information)算法,优化胶囊权重的迭代计算过程。在Model Net10上...
【文章来源】:山东理工大学山东省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
激光雷达Fig.1.1LiDAR
山东理工大学硕士学位论文第一章绪论4图1.2多视图卷积神经网络[19]Fig.1.2Multi-viewConvolutionalNeuralNetwork[19]黄骥[20]提出了一种使用核线性分类分析来对三维模型特征进行优化的新方法,将低维空间下线性不可分的样本映射到高维空间,在高维空间中利用线性分类分析将原有的三维模型特征投影到特定的子空间。该方法能够在保持类间距离的基础上得到具有鉴别信息的低维特征用于三维模型检索,同时使用卷积神经网络来对三维模型深度图进行姿态估计,通过监督学习的方法训练合适的卷积神经网络结构,对三维模型深度图像提取特征后进行姿态参数的预测。实验结果表明,核线性分类分析方法的速度较快,可在秒级完成三维特征优化。AsakoKanezaki[21]等提出了一种基于卷积神经网络(CNN)的模型RotationNet,将对象的多视图图像作为输入,以无监督的方式学习视点标签并将其视为潜在变量,并共同估计其姿势和对象类别,该方法在Modelnet10上的识别准确率达到98%。YavartanooM[22]将三维模型进行多角度二维投影,并使用卷积网络估计对象类别,对卷积网络提取到的进行视图集成,然后将每个集成对象的权值平均结果作为最终的打分,该方法在Modelnet10上取得97%的识别准确率。(2)采用体素化方法对三维模型进行预处理体素化算法利用三维模型与三维空间网格的相交关系,将其处理成0、1形式的体素化数据,可以保留三维模型的空间分布信息,占用较少的计算机存储空间。LengB等[23]使将用三维卷积神经网络3DCNN,利用随机梯度下降(SGD)对卷积层进行预处理,以及反向传播算法对整个网络进行微调从而识别体素化三维模型。其网络结构如图1.3:
山东理工大学硕士学位论文第一章绪论5图1.3三维卷积神经网络[21]Fig.1.33DConvolutionalNeuralNetwork[21]柳伟[24]利用PCA矩阵进行各向同性化,并采用了一种基于迭代策略的各向同性化方法,使三维模型表面达到充分同性化,并将三维模型体素化,使用基于区域熵的特征提取算法对三维模型进行识别。邓皓文[25]在神经网络中加入一个特殊的哈希层,直接提取类似于哈希码的二值化特征,使用一种结合不同网络层输出信息的联合特征方法,显著增加特征中的有效信息量,提升最终的识别精度。HegdeV[26]等融合了基于体素的V-CNNI、V-CNNII以及基于视图的MV-CNN,得到FusionNet,并在ModelNet10的识别中得到了93.1%的识别准确率尽管在卷积神经网络的设计中使用池化层在一定程度上增大了神经元的感受野以及降低了样本训练的开销,但是大量池化层的使用会造成原始数据结构信息的丢失,从而影响最终的识别结果。Hinton教授[27]于2017年提出的胶囊网络创新地使用向量胶囊取代传统神经网络的标量神经元,并提出了动态路由算法更新胶囊之间的连接权重,从而较好的保留了特征的空间信息,在MINIST手写数字识别上达到了99.2%识别准确率。自胶囊网络诞生之后,人们将其应用到了很多领域,如人类行为识别[28]、人工声音事件检测[29]、乳腺癌识别[30][31]、网络流量分类[32]和监控场景下的车型识别等[33]。XixinWu[34]提出了CapsNets的循环连接,考虑频谱图中语音特征的空间关系,提供一种用于获得话音全局特征的有效合并方法与基于基准语料库IEMOCAP上的CNN长短期记忆(CNN-LSTM)组合模型进行比较,在加权准确度(72.73%对68.8%)和未加权准确度(59.71%对59.4%)方面均比基线系统取得了更好的结果。YiHuang[35]使用三维忆阻器交叉开关构建一种架构实现了胶囊网
本文编号:3502282
【文章来源】:山东理工大学山东省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
激光雷达Fig.1.1LiDAR
山东理工大学硕士学位论文第一章绪论4图1.2多视图卷积神经网络[19]Fig.1.2Multi-viewConvolutionalNeuralNetwork[19]黄骥[20]提出了一种使用核线性分类分析来对三维模型特征进行优化的新方法,将低维空间下线性不可分的样本映射到高维空间,在高维空间中利用线性分类分析将原有的三维模型特征投影到特定的子空间。该方法能够在保持类间距离的基础上得到具有鉴别信息的低维特征用于三维模型检索,同时使用卷积神经网络来对三维模型深度图进行姿态估计,通过监督学习的方法训练合适的卷积神经网络结构,对三维模型深度图像提取特征后进行姿态参数的预测。实验结果表明,核线性分类分析方法的速度较快,可在秒级完成三维特征优化。AsakoKanezaki[21]等提出了一种基于卷积神经网络(CNN)的模型RotationNet,将对象的多视图图像作为输入,以无监督的方式学习视点标签并将其视为潜在变量,并共同估计其姿势和对象类别,该方法在Modelnet10上的识别准确率达到98%。YavartanooM[22]将三维模型进行多角度二维投影,并使用卷积网络估计对象类别,对卷积网络提取到的进行视图集成,然后将每个集成对象的权值平均结果作为最终的打分,该方法在Modelnet10上取得97%的识别准确率。(2)采用体素化方法对三维模型进行预处理体素化算法利用三维模型与三维空间网格的相交关系,将其处理成0、1形式的体素化数据,可以保留三维模型的空间分布信息,占用较少的计算机存储空间。LengB等[23]使将用三维卷积神经网络3DCNN,利用随机梯度下降(SGD)对卷积层进行预处理,以及反向传播算法对整个网络进行微调从而识别体素化三维模型。其网络结构如图1.3:
山东理工大学硕士学位论文第一章绪论5图1.3三维卷积神经网络[21]Fig.1.33DConvolutionalNeuralNetwork[21]柳伟[24]利用PCA矩阵进行各向同性化,并采用了一种基于迭代策略的各向同性化方法,使三维模型表面达到充分同性化,并将三维模型体素化,使用基于区域熵的特征提取算法对三维模型进行识别。邓皓文[25]在神经网络中加入一个特殊的哈希层,直接提取类似于哈希码的二值化特征,使用一种结合不同网络层输出信息的联合特征方法,显著增加特征中的有效信息量,提升最终的识别精度。HegdeV[26]等融合了基于体素的V-CNNI、V-CNNII以及基于视图的MV-CNN,得到FusionNet,并在ModelNet10的识别中得到了93.1%的识别准确率尽管在卷积神经网络的设计中使用池化层在一定程度上增大了神经元的感受野以及降低了样本训练的开销,但是大量池化层的使用会造成原始数据结构信息的丢失,从而影响最终的识别结果。Hinton教授[27]于2017年提出的胶囊网络创新地使用向量胶囊取代传统神经网络的标量神经元,并提出了动态路由算法更新胶囊之间的连接权重,从而较好的保留了特征的空间信息,在MINIST手写数字识别上达到了99.2%识别准确率。自胶囊网络诞生之后,人们将其应用到了很多领域,如人类行为识别[28]、人工声音事件检测[29]、乳腺癌识别[30][31]、网络流量分类[32]和监控场景下的车型识别等[33]。XixinWu[34]提出了CapsNets的循环连接,考虑频谱图中语音特征的空间关系,提供一种用于获得话音全局特征的有效合并方法与基于基准语料库IEMOCAP上的CNN长短期记忆(CNN-LSTM)组合模型进行比较,在加权准确度(72.73%对68.8%)和未加权准确度(59.71%对59.4%)方面均比基线系统取得了更好的结果。YiHuang[35]使用三维忆阻器交叉开关构建一种架构实现了胶囊网
本文编号:3502282
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3502282.html
最近更新
教材专著