面向自动驾驶场景的高效实时语义分割方法研究
发布时间:2021-08-17 19:58
图像语义分割(Image Semantic Segmentation)是计算机视觉领域中一项基础且极具挑战性的任务,其目标旨在估计图像中每个像素的类别标签,在驾驶辅助、室内室外场景解析和三维场景建模等视觉应用中发挥着日益重要的作用。最近,深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)已经成为解决图像语义分割的主流方法,通过使用大量标注数据(Ground Truth,GT)训练网络得到最佳拟合模型。现有方法通过堆叠大量的卷积层等方法构建复杂网络,尽管取得了显著的性能提升,但是面临严重的内存消耗和延迟等问题,使得其不适用于实时应用场景,如自动驾驶、增强现实、物联网等。因此,本文基于深度卷积神经网络,就兼具精度与速度的高效自动驾驶场景语义分割方法进行了深入研究,具体研究内容如下:第一,从轻量级模型设计的角度出发,本文提出了一种用于实时语义分割的轻量级编解码分割方法。该方法通过构建非对称的编码器-解码器网络以解决实时语义分割任务。编码器提出了一种新颖的基于分解卷积的残差编码模块,解码器设计了一个注意力金字塔模块,以提取密集的特征。实验结果表...
【文章来源】:南京邮电大学江苏省
【文章页数】:103 页
【学位级别】:硕士
【部分图文】:
CamVid和Cityscapes图像分割数据集标注示例
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍7第二章相关背景知识介绍本章详细论述了图像语义分割的相关技术背景。首先对卷积神经网络的相关理论进行了概述,并介绍了一些典型的卷积神经网络算法结构,同时对图像语义分割技术进行了详细介绍,包括图像语义分割技术评价标准,用于自动驾驶场景的分割数据集,探讨了目前常用的基于卷积神经网络的图像语义分割方法及其优缺点。卷积神经网络卷积神经网络(CNN)是计算机视觉中图像处理、图像识别和图像分析等关键技术的重要组成部分[23,43]。它的目的是将具有独特性质的图像划分成特定区域,然后提取图像的特征。卷积神经网络引入了卷积层、汇合层和感受野等概念,其中,卷积层使用参数共享的方式简化整个模型。具体地,针对图像的处理过程,通过使用多种卷积核提取不同位置的局部特征,逐渐地堆叠卷积结构,完成由低层次到高层次的语义空间映射。2.1.1卷积神经网络概述卷积神经网络[23](ConvolutionalNeuralNetworks,CNN)是一类特殊的人工神经网络,它最主要的特点是卷积运算操作。其发展历程最早可以追溯到20世纪60年代,加拿大科学家DavidH.Hubel和TorstenWiesel提出了在猫的视觉中枢里存在“感受野”概念[71,72]。随后,1980年前后,日本科学家福岛邦彦(KunihikoFukushima)提出了一种层次化的多层人工神经网络[73]。图2-1显示了人工神经网络的基本结构。图2.1人工神经网络的基本结构随着研究的不断深入,YannLeCun[74]等人于1998年提出基于梯度学习的卷积神经网络结构LeNet-5,并将其成功应用于手写数字字符识别中,在当时的技术条件下取得了低于1%
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍8的错误率,LeNet-5是第一个产生商业价值的卷积神经网络,详细结构如图2-2所示。到了2012年,在计算机视觉ImageNet图像分类[39]竞赛四周年之际,GeoffreyE.Hinton等人凭借卷积神经网络Alex-Net[4],以超过第二名近12%的成绩一举夺得了该竟赛冠军,自此揭开了卷积神经网络在计算机视觉领域称霸的序幕。到了2015年,在改进了卷积神经网络的激活函数[75](activationfunction)后,卷积网络在ImageNet数据集上的性能第一次超过了人类预测准确度。图2.2LeNet-5网络结构近年来,随着深度学习特别是卷积神经网络相关领域研究人员的增多、技术的飞速发展,卷积神经网络变得愈宽愈深也更复杂,深度卷积神经网络如今已经成为视觉领域首选的研究方法。总体来说,卷积神经网络是一种层次模型,其主要包括以下几个组成部分:卷积层、汇合层、非线性变换层以及全连接层。在计算机视觉中,一般将卷积层的输出叫做特征图,卷积操作也被称为特征提取过程。(1)卷积层(ConvolutionLayer):利用卷积核(也称作卷积窗,滤波器)在输入图像上以一定的步长滑动,进行对应位置相乘再相加得到输出特征图的操作。如图2.2所示,对于输入手写字符图像大小(HeightWidth,HW)为3232,利用6个大小为55的卷积核卷积后得到的输出特征图的大小为62828,其中数字6即卷积核的个数,也是该层卷积操作输出特征图的深度。对于单个输出特征图12828来说,它的每个像素点的值均利用一个相同的一定大小的卷积核在输入图像上以“滑窗”方式进行卷积得到,所以卷积层具有局部连接、权值共享的特点。(2)汇合层(PoolingLayer,也称池化层):通常需要在CNN中周期性的插入汇合层以逐渐的降低输出特征图的大小,同时减少参数量
【参考文献】:
期刊论文
[1]基于语义分割的增强现实图像配准技术[J]. 卞贤掌,费海平,李世强. 电子技术与软件工程. 2018(23)
[2]深度神经网络压缩与加速综述[J]. 纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃. 计算机研究与发展. 2018(09)
[3]基于DCNN的图像语义分割综述[J]. 魏云超,赵耀. 北京交通大学学报. 2016(04)
[4]自适应区域生长算法在医学图像分割中的应用[J]. 陆剑锋,林海,潘志庚. 计算机辅助设计与图形学学报. 2005(10)
硕士论文
[1]基于深度学习的道路图像语义分割算法研究[D]. 张学涛.山东大学 2019
[2]基于深度卷积网络的道路交通场景感知[D]. 张军良.电子科技大学 2019
[3]面向城市道路场景的语义分割模型研究[D]. 范磊.合肥工业大学 2019
[4]基于深度学习的交通场景理解方法研究[D]. 钱波.大连理工大学 2018
[5]基于GPU的深度学习算法并行化研究[D]. 晋雅茹.东南大学 2017
[6]基于GPU的深度神经网络优化方法研究[D]. 陈一鸣.华中科技大学 2015
本文编号:3348397
【文章来源】:南京邮电大学江苏省
【文章页数】:103 页
【学位级别】:硕士
【部分图文】:
CamVid和Cityscapes图像分割数据集标注示例
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍7第二章相关背景知识介绍本章详细论述了图像语义分割的相关技术背景。首先对卷积神经网络的相关理论进行了概述,并介绍了一些典型的卷积神经网络算法结构,同时对图像语义分割技术进行了详细介绍,包括图像语义分割技术评价标准,用于自动驾驶场景的分割数据集,探讨了目前常用的基于卷积神经网络的图像语义分割方法及其优缺点。卷积神经网络卷积神经网络(CNN)是计算机视觉中图像处理、图像识别和图像分析等关键技术的重要组成部分[23,43]。它的目的是将具有独特性质的图像划分成特定区域,然后提取图像的特征。卷积神经网络引入了卷积层、汇合层和感受野等概念,其中,卷积层使用参数共享的方式简化整个模型。具体地,针对图像的处理过程,通过使用多种卷积核提取不同位置的局部特征,逐渐地堆叠卷积结构,完成由低层次到高层次的语义空间映射。2.1.1卷积神经网络概述卷积神经网络[23](ConvolutionalNeuralNetworks,CNN)是一类特殊的人工神经网络,它最主要的特点是卷积运算操作。其发展历程最早可以追溯到20世纪60年代,加拿大科学家DavidH.Hubel和TorstenWiesel提出了在猫的视觉中枢里存在“感受野”概念[71,72]。随后,1980年前后,日本科学家福岛邦彦(KunihikoFukushima)提出了一种层次化的多层人工神经网络[73]。图2-1显示了人工神经网络的基本结构。图2.1人工神经网络的基本结构随着研究的不断深入,YannLeCun[74]等人于1998年提出基于梯度学习的卷积神经网络结构LeNet-5,并将其成功应用于手写数字字符识别中,在当时的技术条件下取得了低于1%
南京邮电大学硕士研究生学位论文第二章相关背景知识介绍8的错误率,LeNet-5是第一个产生商业价值的卷积神经网络,详细结构如图2-2所示。到了2012年,在计算机视觉ImageNet图像分类[39]竞赛四周年之际,GeoffreyE.Hinton等人凭借卷积神经网络Alex-Net[4],以超过第二名近12%的成绩一举夺得了该竟赛冠军,自此揭开了卷积神经网络在计算机视觉领域称霸的序幕。到了2015年,在改进了卷积神经网络的激活函数[75](activationfunction)后,卷积网络在ImageNet数据集上的性能第一次超过了人类预测准确度。图2.2LeNet-5网络结构近年来,随着深度学习特别是卷积神经网络相关领域研究人员的增多、技术的飞速发展,卷积神经网络变得愈宽愈深也更复杂,深度卷积神经网络如今已经成为视觉领域首选的研究方法。总体来说,卷积神经网络是一种层次模型,其主要包括以下几个组成部分:卷积层、汇合层、非线性变换层以及全连接层。在计算机视觉中,一般将卷积层的输出叫做特征图,卷积操作也被称为特征提取过程。(1)卷积层(ConvolutionLayer):利用卷积核(也称作卷积窗,滤波器)在输入图像上以一定的步长滑动,进行对应位置相乘再相加得到输出特征图的操作。如图2.2所示,对于输入手写字符图像大小(HeightWidth,HW)为3232,利用6个大小为55的卷积核卷积后得到的输出特征图的大小为62828,其中数字6即卷积核的个数,也是该层卷积操作输出特征图的深度。对于单个输出特征图12828来说,它的每个像素点的值均利用一个相同的一定大小的卷积核在输入图像上以“滑窗”方式进行卷积得到,所以卷积层具有局部连接、权值共享的特点。(2)汇合层(PoolingLayer,也称池化层):通常需要在CNN中周期性的插入汇合层以逐渐的降低输出特征图的大小,同时减少参数量
【参考文献】:
期刊论文
[1]基于语义分割的增强现实图像配准技术[J]. 卞贤掌,费海平,李世强. 电子技术与软件工程. 2018(23)
[2]深度神经网络压缩与加速综述[J]. 纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃. 计算机研究与发展. 2018(09)
[3]基于DCNN的图像语义分割综述[J]. 魏云超,赵耀. 北京交通大学学报. 2016(04)
[4]自适应区域生长算法在医学图像分割中的应用[J]. 陆剑锋,林海,潘志庚. 计算机辅助设计与图形学学报. 2005(10)
硕士论文
[1]基于深度学习的道路图像语义分割算法研究[D]. 张学涛.山东大学 2019
[2]基于深度卷积网络的道路交通场景感知[D]. 张军良.电子科技大学 2019
[3]面向城市道路场景的语义分割模型研究[D]. 范磊.合肥工业大学 2019
[4]基于深度学习的交通场景理解方法研究[D]. 钱波.大连理工大学 2018
[5]基于GPU的深度学习算法并行化研究[D]. 晋雅茹.东南大学 2017
[6]基于GPU的深度神经网络优化方法研究[D]. 陈一鸣.华中科技大学 2015
本文编号:3348397
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3348397.html
最近更新
教材专著