基于深度学习的视频语义分割算法研究

发布时间:2021-12-17 21:07
  随着科技的不断发展,计算机视觉逐渐成为人工智能领域重要的研究分支。在计算机视觉研究中,基于图像的语义分割问题研究较为普遍。相对图像而言,视频中蕴含更加重要的时空关联信息。视频语义分割旨在处理连续的视频序列,利用视频帧间关系进行精准分割,在智能监控、汽车自动驾驶、移动端设备开发领域具有重要的应用价值。该文针对视频语义分割中存在的分割精度不足、模型尺寸过大问题展开研究。首先,考虑到图像中小物体分割困难、物体边缘分割不准确问题,提出了基于多尺度的视频语义分割算法。该算法基于全卷积神经网络模型(fully-convolutional neural network,FCN),以视觉几何组网络(Visual Geometry Group Network,VGG)深度卷积网络为基础,采用半监督的方式实现图像内前景和背景的分离,达到持续传递语义信息的目的。算法的关键是结合了在线训练与离线训练来提升模型的总体分割精度。在线训练阶段,给定视频序列第一帧的图像和标签,对其进行微调训练。针对视频序列的帧间关系,对网络的输入新加入额外的掩膜通道,模拟帧和帧之间物体运动的轨迹信息。针对卷积网络下采样丢失精度的问题... 

【文章来源】:燕山大学河北省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

基于深度学习的视频语义分割算法研究


多维卷积操作运算图

特征图,超参数,步长,卷积


pooling)作为卷积神经网络的一大特性,在卷积运算的过程中起作又叫下采样(down sampling),其主要作用为增大特征的感受全局信息。池化可减小特征图的大小,使得计算量减小,但像像素的精度。即使池化在卷积操作中起着重要的作用,但丢失。所以越来越多的方法被提出,目的就是取代卷积网络分割领域,已经出现了一种可行的方法:空洞卷积(dilated co代池化操作在卷积网络中的作用,在不降低特征感受野的同度,相关理论我们在后面会介绍。用最多的池化方法为最大池化(max-pooling)和平均池化(mea对前一层得到的特征图进行缩小,由当前小区域内的最大值平均池化与最大池化的不同处在于其选取的是小区域内均值者的具体操作如图 2-2 所示:

示意图,前向,示意图,卷积


神经网络的优化训练一个好的模型需要大量的超参数和参数,来拟合数据集达到较高的精卷积网络的过程中,有几个比较重要的操作,例如:前向传播与反向传播化器、权值的归一化操作等等。1 前向传播与损失函数前向传播(forward propagation)是网络经过计算,最终得到一个预测的结果网络的支撑骨架。前向传播的计算需要三部分信息。第一个是 input 输入体图像中提取的特征向量。第二部分就是神经元或者卷积层之间的连接结中逐层卷积层和池化层构成了网络的结构。最后,网络中的参数是前向传的部分,也是整个卷积网络最重要的部分。网络的输入经过与层间权值参池化计算,不断得到每一层的输出,最终得到一个预测的 y 值。前向传播程可以由图 2-3 简单的表示。

【参考文献】:
期刊论文
[1]一种基于多字典学习的图像分割模糊方法[J]. 李亚峰.  电子学报. 2018(07)
[2]基于彩色图像分割的飞机机头定位方法[J]. 王平,洪向共,杨华,邱文华,白俊杰.  中国图象图形学报. 2006(11)



本文编号:3540943

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3540943.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50fd3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com