基于深度学习的图像视频的分割与识别
发布时间:2021-02-01 19:07
近几年来,多媒体视频作为一个重要的数据载体,在信息传播中发挥着巨大的作用。然而信息膨胀,给多媒体视频的精准检索带来了巨大挑战。最早的多媒体视频检索技术是采用人工标注的方法完成的。随着视频数量急剧增加,人工标注已经成为不可能完成的任务。后来又建立了基于低层特征的检索系统,但效果并不好。近年来,视频分割成为了视频检索研究的热点,视频分割可以从视频序列中分离出有意义的实体,提高检索的准确度和效率。随着深度学习的不断发展,深度学习技术在计算机视觉任务中取得了长足的进步。目前图像分割与识别的方法都是基于深度学习的,通过深度学习学习到高层次语义特征,可以精准的对图像分割与识别。随着深度学习在图像分割与识别上取得了巨大成功,大家开始使用深度学习的方式进行视频的分割与识别。本文提出了基于深度学习的图像视频的分割与识别方法。图像分割与识别采用的是实例分割方法,并在Mask R-CNN网络基础上给出一种实例分割网络,通过重新设计Mask R-CNN掩码分支结构,来改善和加速实例分割。在掩码分支上通过增大ROIAlign层的分辨率以及使用了前后层特征融合的方法,得到了更加精确的边界信息。在不影响算法精度的前...
【文章来源】:青岛大学山东省
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
神经网
2.2 卷积神经网络卷积神经网络(CNN)的概念最早起源于科学家提出感受野,即每个动物的神经元只会处理一小块区域的视觉图像。日本学者 Fukushima 根据感受野的概念提出了神经认知机,神经认知机把视觉特征分解成若干个子特征,相当于把视觉特征模型化,即使物体发生旋转或扭曲,也不会影响最终的识别效果。一般来说,神经认知机包括两类神经元,一类是用来提取特征的 S-cell,对应于现在的卷积神经网络中卷积核的滤波操作;一类是用来抗变形 C-cell,对应于现在的卷积神经网络中激励函数、池化等操作。卷积神经网络是神经认知机的一种推广形式[28]。卷积神经网络可以通过训练大量数据来进行特征学习,通过隐式地学习特征从而避免了显示特征提取。由于网络的拓扑结构和图像比较符合以及权值共享特性,卷积神经网络在图像处理方面有着比较大的优势。最早的卷积神经网络模型是LeCun 等[29]提出的 LeNet-5,图 2.4 是它的结构图,它是一种高效的用于识别手写体数字的卷积神经网络。卷积神经网络根据不同的操作定义了不同的层,主要包括卷积层、池化层和全连接层。
图 3.3 数据增强后的图片及对应的掩码标签考虑到 GPU 内存有限,固定前面的基础网络部分,只训练了每个阶段的上分支。在第一阶段训练建议框的时候,选取得分比较高的建议框,然后通过值抑制最终选取 2000 个建议框。在第二阶段,与训练 Faster R-CNN 时的参,从 2000 个建议框中选取正负样本总数为 64 个,正负比例为 1:3。如果第区域建议网络得到的2000个建议框与目标框的重叠面积不小于0.5,则为正样则为负样本。在第三阶段,将选取出来的 64 个建议框用于掩码分支,仅在每本的建议框对应的类别掩码上计算损失函数,本次实验的数据集共有六类再景类共有七类。在测试阶段,通过非极大值抑制得到评分最高的 100 个检测框,将掩码分在这 100 个检测框上,通过 Keras 的 TimeDistributed 函数可以使这些检测框算,大大提高了运算速度。然后将掩码输出调整到感兴趣区域大小,并使用 0.5 将其二值化。本次实验使用的框架是 Keras,在图片输入的时候将图片缩放到 1024×10
【参考文献】:
期刊论文
[1]基于双重检测的视频镜头分割方法[J]. 杨瑞琴,吕进来. 计算机工程与设计. 2018(05)
[2]基于聚类方法改进的关键帧提取算法[J]. 白慧茹,吕进来. 计算机工程与设计. 2017(07)
[3]智能视频监控系统中的人脸识别技术之研究[J]. 邹香玲. 电子技术与软件工程. 2017(03)
[4]智慧城市多源异构大数据处理框架[J]. 刘岩,王华,秦叶阳,朱兴杰. 大数据. 2017(01)
[5]视频检索研究可视化分析[J]. 徐彤阳,张国标. 计算机工程与应用. 2017(22)
[6]图像分割方法综述研究[J]. 周莉莉,姜枫. 计算机应用研究. 2017(07)
[7]视频中目标检测算法研究[J]. 张明军,俞文静,袁志,黄志金. 软件. 2016(04)
[8]视频镜头分割方法综述[J]. 魏玮,刘静,王丹丹. 计算机系统应用. 2013(01)
[9]数字视频信息的索引研究[J]. 严明,苏新宁. 现代图书情报技术. 2005(07)
[10]基于内容的视频检索[J]. 王娣,黄春毅. 现代图书情报技术. 2000(S2)
博士论文
[1]智能视频监控中的运动目标检测与跟踪技术研究[D]. 屈鉴铭.西安电子科技大学 2015
本文编号:3013278
【文章来源】:青岛大学山东省
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
神经网
2.2 卷积神经网络卷积神经网络(CNN)的概念最早起源于科学家提出感受野,即每个动物的神经元只会处理一小块区域的视觉图像。日本学者 Fukushima 根据感受野的概念提出了神经认知机,神经认知机把视觉特征分解成若干个子特征,相当于把视觉特征模型化,即使物体发生旋转或扭曲,也不会影响最终的识别效果。一般来说,神经认知机包括两类神经元,一类是用来提取特征的 S-cell,对应于现在的卷积神经网络中卷积核的滤波操作;一类是用来抗变形 C-cell,对应于现在的卷积神经网络中激励函数、池化等操作。卷积神经网络是神经认知机的一种推广形式[28]。卷积神经网络可以通过训练大量数据来进行特征学习,通过隐式地学习特征从而避免了显示特征提取。由于网络的拓扑结构和图像比较符合以及权值共享特性,卷积神经网络在图像处理方面有着比较大的优势。最早的卷积神经网络模型是LeCun 等[29]提出的 LeNet-5,图 2.4 是它的结构图,它是一种高效的用于识别手写体数字的卷积神经网络。卷积神经网络根据不同的操作定义了不同的层,主要包括卷积层、池化层和全连接层。
图 3.3 数据增强后的图片及对应的掩码标签考虑到 GPU 内存有限,固定前面的基础网络部分,只训练了每个阶段的上分支。在第一阶段训练建议框的时候,选取得分比较高的建议框,然后通过值抑制最终选取 2000 个建议框。在第二阶段,与训练 Faster R-CNN 时的参,从 2000 个建议框中选取正负样本总数为 64 个,正负比例为 1:3。如果第区域建议网络得到的2000个建议框与目标框的重叠面积不小于0.5,则为正样则为负样本。在第三阶段,将选取出来的 64 个建议框用于掩码分支,仅在每本的建议框对应的类别掩码上计算损失函数,本次实验的数据集共有六类再景类共有七类。在测试阶段,通过非极大值抑制得到评分最高的 100 个检测框,将掩码分在这 100 个检测框上,通过 Keras 的 TimeDistributed 函数可以使这些检测框算,大大提高了运算速度。然后将掩码输出调整到感兴趣区域大小,并使用 0.5 将其二值化。本次实验使用的框架是 Keras,在图片输入的时候将图片缩放到 1024×10
【参考文献】:
期刊论文
[1]基于双重检测的视频镜头分割方法[J]. 杨瑞琴,吕进来. 计算机工程与设计. 2018(05)
[2]基于聚类方法改进的关键帧提取算法[J]. 白慧茹,吕进来. 计算机工程与设计. 2017(07)
[3]智能视频监控系统中的人脸识别技术之研究[J]. 邹香玲. 电子技术与软件工程. 2017(03)
[4]智慧城市多源异构大数据处理框架[J]. 刘岩,王华,秦叶阳,朱兴杰. 大数据. 2017(01)
[5]视频检索研究可视化分析[J]. 徐彤阳,张国标. 计算机工程与应用. 2017(22)
[6]图像分割方法综述研究[J]. 周莉莉,姜枫. 计算机应用研究. 2017(07)
[7]视频中目标检测算法研究[J]. 张明军,俞文静,袁志,黄志金. 软件. 2016(04)
[8]视频镜头分割方法综述[J]. 魏玮,刘静,王丹丹. 计算机系统应用. 2013(01)
[9]数字视频信息的索引研究[J]. 严明,苏新宁. 现代图书情报技术. 2005(07)
[10]基于内容的视频检索[J]. 王娣,黄春毅. 现代图书情报技术. 2000(S2)
博士论文
[1]智能视频监控中的运动目标检测与跟踪技术研究[D]. 屈鉴铭.西安电子科技大学 2015
本文编号:3013278
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3013278.html
最近更新
教材专著