当前位置:主页 > 科技论文 > 自动化论文 >

基于深度卷积神经网络的室外场景理解研究

发布时间:2018-10-25 10:47
【摘要】:场景理解是计算机视觉和人工智能领域的研究热点,其研究成果已被广泛应用于机器人导航、网络搜索、安防监控、医疗卫生等众多领域。场景理解的各个分支任务,如目标检测、图像语义分割等,近年来都取得了突破性进展,但仍然存在众多不足之处。如由于目标自身形变和外界因素干扰,通常难以获得可靠、鲁棒的特征用于场景中的动态目标分类。深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)通过端到端的特征学习,能有效实现对场景图片的语义分类,但却难以实现对场景图片的精确语义分割。围绕上述问题,本文的主要研究内容如下:1)首先,提出一种基于多任务空间金字塔池化DCNN的动态目标分类方法。该方法首先通过高斯混合模型提取出视频中场景动态目标物体,经图像形态学处理而获得较为准确、完整的目标图像块。然后将获得的目标图像块送入多任务空间金字塔池化DCNN而实现对该目标图像块的分类,同时获得其语义标签。实验结果表明,高层卷积特征对部分遮挡、重叠、视角变化等具有较强的鲁棒性,多任务空间金字塔池化DCNN在动态目标分类任务上能取得很高的分类精度并给出较为准确的目标语义标签。2)其次,针对传统手工特征鲁棒性和表达能力的不足,提出一种将DCNN与MeanShift图像分割算法相结合的室外场景语义分割方法。该方法首先通过MeanShift算法对场景图像进行预分割,然后在分割后的各局部区域随机采集样本图像块并将其送入DCNN获得其类别概率,最后将各局部区域的样本图像块的类别概率进行平均获得其语义标签进而实现语义分割。关于DCNN卷积核大小、卷积核个数和训练数据集的扩展等因素对场景图像语义分割结果的影响做了研究分析。与基于SIFT局部特征描述子的SEVI-BOVW方法进行对比的实验结果表明,本方法在准确率和识别速度上均有较大提升。3)最后,基于DCNN,提出了一种联合物体检测与语义分割的场景理解方法,并将其与基于HOG(Histogram of Oriented Gradients)纹理特征及支持向量机(Support Vector Machine,SVM)分类算法的背景物体语义分割方法相结合应用于机器人的校园导航。该场景理解方法由Faster R-CNN算法检测场景图片中的前景目标物体,通过Deeplab-CRFs模型对场景图片中的前景目标物体进行语义预分割,最后由GrabCut前景提取算法将二者的检测、分割结果相结合而实现对目标物体更精确、更完整的语义分割。实验证明,该方法能准确、全面地对目标进行检测及语义分割,并有效用于机器人的校园导航。
[Abstract]:Scene understanding is a hot topic in the field of computer vision and artificial intelligence. Its research results have been widely used in many fields such as robot navigation, network search, security monitoring, medical care and so on. Various branch tasks of scene understanding, such as target detection, image semantic segmentation and so on, have made a breakthrough in recent years, but there are still many shortcomings. For example, it is difficult to obtain reliable and robust features for dynamic target classification in the scene because of the deformation of the target itself and the interference of external factors. Deep convolution neural network (Deep Convolutional Neural Networks,DCNN) can effectively realize semantic classification of scene images by end-to-end feature learning, but it is difficult to achieve accurate semantic segmentation of scene images. The main contents of this paper are as follows: 1) first of all, a dynamic object classification method based on multi-task space pyramid pool DCNN is proposed. Firstly, the dynamic object of scene in video is extracted by Gao Si mixed model, and the complete target image block is obtained by morphological processing. Then the target image block is sent into the multi-task space pyramid to pool DCNN to realize the classification of the target image block and the semantic label is obtained at the same time. The experimental results show that the high level convolution features are robust to partial occlusion, overlap, angle change, etc. Multi-task space pyramidal DCNN can achieve high classification accuracy and give accurate target semantic tags in dynamic target classification tasks. An outdoor scene semantic segmentation method combining DCNN and MeanShift image segmentation algorithm is proposed. Firstly, the scene image is presegmented by MeanShift algorithm, and then the sample image blocks are collected randomly in each local region after segmentation, and the probability of classification is obtained by sending them into DCNN. Finally, the category probability of the sample image block of each local region is averaged to obtain its semantic label, and then the semantic segmentation is realized. The effects of the size of DCNN convolution kernel, the number of convolution cores and the expansion of training data set on the result of scene image semantic segmentation are studied and analyzed. Compared with the SEVI-BOVW method based on SIFT local feature descriptor, the experimental results show that the accuracy and recognition speed of the method are greatly improved. Finally, a scene understanding method combining object detection and semantic segmentation is proposed based on DCNN,. It is combined with the semantic segmentation method of background object based on HOG (Histogram of Oriented Gradients) texture feature and support Vector Machine (Support Vector Machine,SVM) classification algorithm in the campus navigation of robot. In this method, the foreground object in scene image is detected by Faster R-CNN algorithm, and the foreground object in scene image is segmented by Deeplab-CRFs model. Finally, GrabCut foreground extraction algorithm detects the two objects. The segmentation results combine to achieve a more accurate and complete semantic segmentation of the target object. Experiments show that the proposed method can detect and segment objects accurately and comprehensively, and can be effectively used in robot campus navigation.
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TP183

【相似文献】

相关期刊论文 前10条

1 顾勇;张灿果;龚志广;;基于图像块分割融合算法在医学图像中的应用[J];河北建筑工程学院学报;2007年02期

2 李天伟;黄谦;郭模灿;何四华;;图像块混沌特征在海面运动目标检测中的应用[J];中国造船;2011年02期

3 李军;部分图像块的显示及特技制作技巧[J];电脑编程技巧与维护;1997年04期

4 李生金;蒲宝明;贺宝岳;王维维;;基于图像块的滞留物/移取物的检测方法[J];小型微型计算机系统;2014年01期

5 赵德斌;陈耀强;高文;;基于图像块方向的自适应无失真编码[J];模式识别与人工智能;1998年01期

6 陈琦,李华,朱光喜;一种新的应用于屏幕共享的图像块识别算法[J];电讯技术;2000年06期

7 刘尚翼;霍永津;罗欣荣;白仲亮;魏林锋;项世军;;基于图像块相关性分类的加密域可逆数据隐藏[J];武汉大学学报(理学版);2013年05期

8 陈奋,闫冬梅,赵忠明;一种快速图像块填充算法及其在遥感影像处理中的应用[J];计算机应用;2005年10期

9 马文龙,余宁梅,银磊,高勇;图像块动态划分矢量量化[J];计算机辅助设计与图形学学报;2005年02期

10 李维钊,王广伟;图像块平坦测度与系数扫描方式选择[J];山东电子;2000年04期

相关会议论文 前2条

1 李赵红;侯建军;宋伟;;基于图像块等级模型的多重认证水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年

2 钟凡;莫铭臻;秦学英;彭群生;;基于WSSD的不规则图像块快速匹配[A];中国计算机图形学进展2008--第七届中国计算机图形学大会论文集[C];2008年

相关博士学位论文 前5条

1 霍雷刚;图像处理中的块先验理论及应用研究[D];西安电子科技大学;2015年

2 钦夏孟;稠密图像块匹配方法及其应用[D];北京理工大学;2015年

3 林乐平;基于过完备字典的非凸压缩感知理论与方法研究[D];西安电子科技大学;2016年

4 向涛;复杂场景下目标检测算法研究[D];电子科技大学;2016年

5 宋伟;几类数字图像水印算法的研究[D];北京交通大学;2010年

相关硕士学位论文 前10条

1 王荣丽;基于半监督学习的目标跟踪方法研究[D];浙江师范大学;2015年

2 祝汉城;数字图像的客观质量评价方法研究[D];中国矿业大学;2015年

3 陆杰;使用自组织增量神经网络实现单层非监督特征学习[D];南京大学;2015年

4 熊耀先;基于图像块统计特性的EPLL遥感图像复原方法[D];国防科学技术大学;2014年

5 张书扬;基于冗余字典的图像压缩感知技术研究[D];吉林大学;2016年

6 杨存强;基于图像块多级分类和稀疏表示的超分辨率重建算法研究[D];天津工业大学;2016年

7 李向向;视频监控下实时异常行为检测研究[D];南京邮电大学;2016年

8 程晓东;基于帧间块约束和进化计算的视频压缩感知重构方法[D];西安电子科技大学;2016年

9 李小青;基于脊波冗余字典和多目标遗传优化的压缩感知图像重构[D];西安电子科技大学;2016年

10 文俊;基于深度卷积神经网络的室外场景理解研究[D];杭州电子科技大学;2016年



本文编号:2293486

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2293486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3584***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com