当前位置:主页 > 科技论文 > 软件论文 >

感受野学习模型、方法与应用研究

发布时间:2021-11-21 00:34
  图像检测与识别任务的性能很大程度上取决于特征的表达能力,好的特征应该能丢弃无关信息,并将图像中与任务相关的要素充分的抽象出来。传统的描述子受到表达能力的限制,成为图像检测与识别任务中的瓶颈。而近年来迅速发展的特征学习模型能够从数据中学习图像的特征,将图像检测与识别算法的能力推向了一个新的高度。在特征学习算法中,通过对特征的池化(pooling)操作,可以生成一个更有效、包含了重要信息的新特征,同时抛弃一些无关细节。池化能够使特征产生一些较为复杂的特性,因此有研究者也将特征学习模型中的池化,与哺乳动物复杂视觉细胞相对应。在神经科学中,这些复杂视觉细胞对于输入信号的响应具有局部性、带通性和选择性,上述性质也被称作复杂视觉细胞的感受野。本文的主要工作,围绕面向图像检测和识别任务的特征学习展开,旨在通过对池化模型的改进,进一步地提高特征的表达能力。一些研究者将池化模型上的学习方法称为感受野学习。本文对特征词袋(Bag-of-features,BoF)模型和卷积神经网络(Convolutional Neural Networks, CNN)模型上的池化展开研究,主要工作和贡献包含以下四个方面:1... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:125 页

【学位级别】:博士

【部分图文】:

感受野学习模型、方法与应用研究


图1-1面向图像识别的Bag-of-features模型框架图??

区域图,区域,特征表达


?为获得更加丰富的特征空间上的分布信息,许多子区域的分割方式如规则网??格结构、空间金字塔[38]、超完备(如图1-3)等方案被相继提出,使BoF特征??包含更为丰富的局部信息。??■?■■■??■?■?■?■?ib'??■?■■■?■■■■■■_■■国??■?■■■雇_??鼉?SSS5ISSE5S??■?:::5::S:SS??OT?IH?m?WKt?■■■■■■■■■■??umum?歷■■醒?ssassssss:??(a)?(b)?(c)??图1-3池化区域。(a)规则网格;(b)空间金字塔;(c)超完备??除了减少特征的数量之外,池化还能够为特征表达带来一些非常有用的特性,??比如平移不变性。这意味着即使将图像进行一个小的平移,所产生的特征表达也??不发生变化。??1.2.2卷积神经网络??卷积神经网络(CNN)是一种广泛应用的神经网络模型。其最早的设想源于??20世纪60年代,Hubei和Wiesel在研究猫视觉皮层细胞[27]时,发现产生局部敏感??性和方向选择性的神经元组成了一个特别的网络结构,提出了感受野(receptive??field)的概念。据此,K.Fukushima在1980年提出的神经认知机(neocognitron)??被认为是卷积神经网络的原型【28]。1989年Y.LeCun将BP?(Back-Propagation)算??法同卷积神经网络结合进行图像识别,该模型被认为是第一个现代意义的卷积神??经网络[29]。??一般来说,CNN包括两种基本结构,一个是卷积层,每个神经元与上一层的??局部感受野相连接

网络结构图,网络结构,卷积


LeNet-5是LeCun等人于1989年提出的一个用于手写字体识别的卷积神经网??络[29],是卷积神经网络发展过程中一个具有里程碑意义的经典模型。LeNet-5网络??由7层组成,每一层都包含了可训练的参数,具体模型结构如图1-4所示。与当前??主流的卷积神经网络较为不同的一点是,池化层S2特征图与卷积层C3特征图之??间的连接采用了部分连接的方式。对此,LeCim等人提出了两点原因:首先,不??完全的连接能够控制参数的数量;其次,打破网络的对称性,有利于特征图能够??学习到多样化的特征。??C3:?f.?maps?16@10x10??IK1pi,T?C1:?feature?maps?S4:?f.?maps?16@5x5??Full?conhection?|?Gaussian??Convolutions?Subsampling?Convolutions?Subsampling?Full?connection??图1-4?LeNet-5网络结构[29]??AlexNet是由Hinton的学生Alex?Krizhevsky于2012年提出的一种卷积神经网??络模型该模型T〇P5的错误率为15.3%,与之前最好的算法相比,错误率下降??了近一半,在当年的ImageNet图像识别竞赛中获得了冠军。由于该算法的出色性??能,引起了学术界和工业界对于深度学习算法的强烈关注,成为深度学习发展的??一个转折点。AlexNet由5个卷积层、3个池化层和2个全连接层组成。模型采用??了?224x224的三通道图像作为输入


本文编号:3508400

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3508400.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户513a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com