基于深度编解码框架的视觉数据理解
发布时间:2021-10-11 07:34
视觉数据理解就是挖掘图像和视频中的信息,并形成结构化的描述性文字,一定程度上跨越视觉数据与人类理解间的语义鸿沟。随着大数据时代的推进,人类对视觉数据的分析能力已经远远低于人类获得视觉数据的能力,迫切需要通过视觉数据理解方法,将图像和视频这类半结构化或非结构化的数据转化为计算机可直接理解的结构化数据。这种迫切的需求促使了传统机器学习方法的变革,深度学习技术诞生。本文根据视觉数据的特性,将视觉数据理解统一为序列识别问题,利用深度编解码框架解决此问题。自然场景下的视觉数据分为图像和视频,由于视频中帧与帧之间存在时间和空间的关联性,所以本文将视频和图像分开考虑,分别研究了图像理解方法和视频理解方法。这两类理解方法可以解析图像和视频中的中层和高层语义,并输出描述性文字。虽然描述性文字包含了视觉数据语义信息,但没有对视觉数据中出现的文字进行解析。文字作为视觉数据中重要的信息载体,同样包含了丰富精准的高层语义。本文在研究图像和视频理解的同时,对自然场景文字识别方法进行了研究。具体地,本文的研究成果包括:(1)提出了一种基于多向二维长短时记忆网络的图像理解方法。在传统的编解码模型中,CNN全连接层的存...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
多层感知器中节点结构图
Yl= f Wl 1Yl 1+ bl 1Y为相应层的输出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 为可训练的参数偏置项,f为非线性激活函数。2.2.2 多层感知器的后向传播多层感知器的训练主要是通过损失函数和优化算法对网络中的可训练调整,从而使得调整过后的网络参数能够更好地拟合训练数据。常见数包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于训练的优化算法在第2.6节进行了详细的介绍。算法(back propagation algorithm)是连接损失函数和优化算法的桥梁,多层感知器的后向传播算法进行介绍。
国防科技大学研究生院博士学位论文图2.4 LeNet[1]卷积神经网络结构图xl 1i,CNN第l层作用于第l 1 层第 i 个特征图的第 j 个卷积核为 klij,那么第l层输出特征图的第j个通道为:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 为卷积操作,blj为偏置项。设卷积核大小为M × N,那么 xl 1i上(u, v)位置的卷积运算可以表示为:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)对于整个卷积层的卷积操作,涉及到的参数有填充值(pad),记为p
【参考文献】:
期刊论文
[1]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
本文编号:3430075
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
多层感知器中节点结构图
Yl= f Wl 1Yl 1+ bl 1Y为相应层的输出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 为可训练的参数偏置项,f为非线性激活函数。2.2.2 多层感知器的后向传播多层感知器的训练主要是通过损失函数和优化算法对网络中的可训练调整,从而使得调整过后的网络参数能够更好地拟合训练数据。常见数包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于训练的优化算法在第2.6节进行了详细的介绍。算法(back propagation algorithm)是连接损失函数和优化算法的桥梁,多层感知器的后向传播算法进行介绍。
国防科技大学研究生院博士学位论文图2.4 LeNet[1]卷积神经网络结构图xl 1i,CNN第l层作用于第l 1 层第 i 个特征图的第 j 个卷积核为 klij,那么第l层输出特征图的第j个通道为:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 为卷积操作,blj为偏置项。设卷积核大小为M × N,那么 xl 1i上(u, v)位置的卷积运算可以表示为:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)对于整个卷积层的卷积操作,涉及到的参数有填充值(pad),记为p
【参考文献】:
期刊论文
[1]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
本文编号:3430075
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3430075.html