基于回复式神经网络的图像序列识别若干问题研究
发布时间:2021-08-11 11:52
随着摄像监控设备以及智能移动设备的普及,安防、娱乐等领域视频数据呈现爆炸式增长,利用人工智能技术理解视频内容成为建设“智慧城市”的重要环节。作为视频分析技术的重要分支,图像序列(视频)识别是计算机视觉中的热点研究方向,在人机交互、智能监控、自动驾驶等领域都有着广泛的应用。随着深度学习的发展,尤其是回复式神经网络的“记忆”功能,基于回复式神经网络的图像序列(视频)识别取得了显著成果。然而,面对视频外观变化、背景变化、质量低下等干扰因素的影响,利用回复式神经网络学习图像序列中具有辨别力的特征表示,仍然极具挑战性。本文围绕基于回复式神经网络的图像序列(视频)识别问题展开相关研究。首先,通过步态识别(工作一)解决视频分析中的“是谁”问题;在此基础上,从三个方面(工作二、三、四)对人体行为进行识别,解决视频分析中的“做了什么”问题。本文的四项研究工作以及贡献包括:(1)人体步态识别算法受限于外在形象的差异、拍摄角度的变化、背景内容的复杂等因素,往往识别效果不佳。本文提出基于记忆学习的步态识别算法。首先,作为前期工作,手动标注少量人体步态关节点数据,包括正样本和负样本(不存在人物的数据)。然后,利...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:132 页
【学位级别】:博士
【部分图文】:
传统方法处理图像序列识别任务的过程
图1-3展示了深度学习方法处理图像序列识别任务的过程,与传统方法不同的是,深度学习方法不需要手工设计特征,而是直接设计网络结构,然后训练、学习网络参数。卷积神经网络(Convolutional Neural Network,CNN)与回复式神经网络是常用的神经网络模型。其中,LeCun等人在1989年首次提出卷积神经网络的思想,并将其用于解决手写邮编码的识别问题[14]。卷积神经网络通过在传统前馈神经网络中加入卷积操作和池化(Pooling)操作,最终实现参数共享与局部感知,使得该网络能够输出具有平移不变性、尺度不变性和抗形变的视觉特征。2012年,Krizhevsky等人利用基于卷积神经网络的AlexNet模型[15],在ImageNet大规模视觉识别挑战赛中获得冠军。至此,深度学习方法流行起来。另外,许多探索神经网络可解释性的文献[16,17]都证明,卷积神经网络与人类大脑主视觉皮层在提取数据信息时有一定的相似性,不同的网络层提取的特征具有不同的语义层次。从神经网络在图像分析领域中取得的丰硕成果[18,19]中受到启发,许多研究者提出利用神经网络模型解决视频数据任务。Karpathy等人[20]利于卷积神经网络提取视频各帧视觉特征,然后在时间维度上探索多种融合策略学习视频特征的表征。不同于前者的时间维度融合方式,Simonyan等人[21]利用光流(Optical Flow)信息表征视频的动力学特征,将RGB和光流分两路输入卷积神经网络,最终融合两者结果共同学习图像序列分类任务。为了避免程序复杂的光流计算过程,Tran等人[22]将2D卷积过程拓展到3D空间,提出使用3D卷积神经网络(3D Convolutional Neuralo Network,C3D)学习时空特征。之后,3D卷积操作得到广泛应用,研究者们在3D卷积思想的基础上,提出双流3D卷积网络[23]、伪3D残差卷积网络[24]、分解的3D卷积残差网络[25]等来提升视频分析性能。除此之外,Zhao等人[26]提出轨迹卷积网络,即在运动轨迹上执行卷积操作,更好的学习图像序列的时间特性。
(1)3D卷积网络自从2012年AlexNet模型在图像识别竞赛中夺冠之后,卷积神经网络成为国内外学术界和工业界的新进宠儿。为了更好的处理具有时空特性的视频数据,Tran等人[22]将2D卷积核扩展到3D空间,提出3D卷积网络,用于解决计算机视觉领域中的视频分析问题。与传统的2D卷积网络相比,3D卷积网络通过3D卷积操作与3D池化操作同时建模数据时序关系和空间关系。在3D卷积网络中,网络的输入尺寸为c?l?h?w,c为通道数,l为视频帧的数量,h和w分别为静态图像的高度与宽度。与2D卷积核不同,3D卷积核多了一个维度,即卷积核深度,如图1-4所示,图中展示了一个3?3的2D卷积核用于处理图像数据,一个3?3?3的3D卷积核用于处理视频数据。
【参考文献】:
期刊论文
[1]人的视觉行为识别研究回顾、现状及展望[J]. 单言虎,张彰,黄凯奇. 计算机研究与发展. 2016(01)
[2]课堂教学视频分析软件的设计与实现[J]. 张志祯,喻凡,李芒. 中国电化教育. 2010(06)
[3]智能视频分析技术在周界报警系统中的应用[J]. 陈育智. 自动化仪表. 2009(11)
[4]基于Matlab的图像增强技术研究[J]. 贾小军. 渭南师范学院学报. 2008(02)
[5]图像增强技术的研究[J]. 张娜. 计算机仿真. 2007(01)
本文编号:3336108
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:132 页
【学位级别】:博士
【部分图文】:
传统方法处理图像序列识别任务的过程
图1-3展示了深度学习方法处理图像序列识别任务的过程,与传统方法不同的是,深度学习方法不需要手工设计特征,而是直接设计网络结构,然后训练、学习网络参数。卷积神经网络(Convolutional Neural Network,CNN)与回复式神经网络是常用的神经网络模型。其中,LeCun等人在1989年首次提出卷积神经网络的思想,并将其用于解决手写邮编码的识别问题[14]。卷积神经网络通过在传统前馈神经网络中加入卷积操作和池化(Pooling)操作,最终实现参数共享与局部感知,使得该网络能够输出具有平移不变性、尺度不变性和抗形变的视觉特征。2012年,Krizhevsky等人利用基于卷积神经网络的AlexNet模型[15],在ImageNet大规模视觉识别挑战赛中获得冠军。至此,深度学习方法流行起来。另外,许多探索神经网络可解释性的文献[16,17]都证明,卷积神经网络与人类大脑主视觉皮层在提取数据信息时有一定的相似性,不同的网络层提取的特征具有不同的语义层次。从神经网络在图像分析领域中取得的丰硕成果[18,19]中受到启发,许多研究者提出利用神经网络模型解决视频数据任务。Karpathy等人[20]利于卷积神经网络提取视频各帧视觉特征,然后在时间维度上探索多种融合策略学习视频特征的表征。不同于前者的时间维度融合方式,Simonyan等人[21]利用光流(Optical Flow)信息表征视频的动力学特征,将RGB和光流分两路输入卷积神经网络,最终融合两者结果共同学习图像序列分类任务。为了避免程序复杂的光流计算过程,Tran等人[22]将2D卷积过程拓展到3D空间,提出使用3D卷积神经网络(3D Convolutional Neuralo Network,C3D)学习时空特征。之后,3D卷积操作得到广泛应用,研究者们在3D卷积思想的基础上,提出双流3D卷积网络[23]、伪3D残差卷积网络[24]、分解的3D卷积残差网络[25]等来提升视频分析性能。除此之外,Zhao等人[26]提出轨迹卷积网络,即在运动轨迹上执行卷积操作,更好的学习图像序列的时间特性。
(1)3D卷积网络自从2012年AlexNet模型在图像识别竞赛中夺冠之后,卷积神经网络成为国内外学术界和工业界的新进宠儿。为了更好的处理具有时空特性的视频数据,Tran等人[22]将2D卷积核扩展到3D空间,提出3D卷积网络,用于解决计算机视觉领域中的视频分析问题。与传统的2D卷积网络相比,3D卷积网络通过3D卷积操作与3D池化操作同时建模数据时序关系和空间关系。在3D卷积网络中,网络的输入尺寸为c?l?h?w,c为通道数,l为视频帧的数量,h和w分别为静态图像的高度与宽度。与2D卷积核不同,3D卷积核多了一个维度,即卷积核深度,如图1-4所示,图中展示了一个3?3的2D卷积核用于处理图像数据,一个3?3?3的3D卷积核用于处理视频数据。
【参考文献】:
期刊论文
[1]人的视觉行为识别研究回顾、现状及展望[J]. 单言虎,张彰,黄凯奇. 计算机研究与发展. 2016(01)
[2]课堂教学视频分析软件的设计与实现[J]. 张志祯,喻凡,李芒. 中国电化教育. 2010(06)
[3]智能视频分析技术在周界报警系统中的应用[J]. 陈育智. 自动化仪表. 2009(11)
[4]基于Matlab的图像增强技术研究[J]. 贾小军. 渭南师范学院学报. 2008(02)
[5]图像增强技术的研究[J]. 张娜. 计算机仿真. 2007(01)
本文编号:3336108
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3336108.html