基于卷积神经网络的视觉识别研究
发布时间:2019-11-06 20:30
【摘要】:近年来,卷积神经网络(CNN)凭借其强大的特征学习能力在视觉识别领域取得重要进展,并受到学术界和工业界的广泛关注。首先,本文对CNN的结构进行如下两方面的创新研究:1)针对CNN全连接层对图像平移、旋转、缩放等变换比较敏感的问题,提出了一种混合模型——卷积词袋网络(Bo CW-Net)。它将Bo W模型嵌入CNN结构中并代替全连接层,通过端到端的方式学习特征、字典和分类器。为实现Bo CW-Net整个网络的有监督学习,提出基于方向相似度的Bo CW编码。同时,为充分利用中层特征和高层特征的鉴别性,将中层辅助分类器与高层分类器集成,形成主-辅集成分类器。实验结果表明:相比全连接层,Bo CW表示对各种变换具有更强的不变性;主-辅集成分类器能有效融合中层、高层特征,提高Bo CW-Net的识别性能;Bo CW-Net在CIFAR-10、CIFAR-100和MNIST数据库上均取得了改进的识别性能,最终分别获得4.88%、22.48%和0.21%的测试错误率。2)链式结构的CNN虽然能利用表征全局的高层特征解决一般的粗糙分类问题,但没有利用表征局部细节的中层特征解决精细分类问题。因此本文提出另外一种改进模型——卷积词袋-融合网络(Bo CW-Fusion Net)。它将中层、高层特征的Bo CW表示进行级联后再连接分类器,同样是通过端到端的有监督方式学习特征、字典和分类器。实验结果表明:Bo CW-Fusion Net相比链式CNN获得微小的改进性能,在CIFAR-10和CIFAR-100数据库上分别获得5.36%和24.82%的测试错误率。然后,利用改进的CNN模型(Bo CW-Net和Bo CW-Fusion Net)来解决实际应用问题,包括车型行人识别以及男女性别识别。车型行人数据包含6类车型(客车、轿车、面包车、货车、三轮车以及摩托车)和1类行人的图像,分类准确率分别为98.06%(Bo CW-Net)和97.94%(Bo CW-Fusion Net)。男女性别数据包含男女两类的人脸或头像照片,分类准确率分别为96.20%(Bo CW-Net)和94.90%(Bo CW-Fusion Net)。实际应用表明,改进的CNN模型均获得较好的识别性能。Bo CW-Net和Bo CW-Fusion Net的分类性能比较表明:无论公共数据库还是实际应用数据,中层、高层Bo CW表示的主-辅分类器集成方式相比级联方式能有效地融合中层和高层特征。最后,使用Bo CW-Net参与Kaggle大数据分析平台上的CIFAR-10物体识别竞赛和FER2013人脸表情识别竞赛,分别获得95.10%和70.10%的分类准确率,在排行榜上均为第二名。
【图文】:
还包含一个或者多个隐含层。输入层接收的输入数据,经过个隐含层逐层传播后,达到输出层输入结果,如图2.2 所示。神经网络采用反向传播(back propagation,,BP)算法进行训练。BP 算法的基本思想是:数据经过网络传播后得到输出结果,如果实际输出与期望输出存在误差,则将输出误差以某种形式通过隐含层向输出层逐层反向传播,并将误差分配到各层的神经元,从而得到所有神经元的误差信号,并以此误差信号修正各个神经元的权值。输入数据的正向传播与输出误差的反向传播是神经网络的一大特点,这个过程一直进行到网络输出的误差较少到可接受的程度,或者达到预先设定的学习次数为止。输入 隐含层 隐含层 输出图 2.2 人工神经网络2.2 卷积神经网络的基本思想CNN 是人工神经网络的变种,其来源于 Hubel 和 Wiesel 对于猫初级视皮层的研究。初级视皮层包括简单细胞(simple cell)和复杂细胞(complex cell)。简单细胞主要感知其局部感受野(local receptive fields)内的特定边缘刺激,而复杂细胞以简单细胞的响应作为输入,以更大的局部感受野响应边缘刺激。
特征(如图 2.3 所示),有效模拟人脑初级视皮层中简单细胞的功能。一NN 会利用多组卷积核(10×10)提取多种特征,则将产生 N×102个权值卷积核的组数(也就是特征图的个数)。
【学位授予单位】:华南农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TP183
本文编号:2556884
【图文】:
还包含一个或者多个隐含层。输入层接收的输入数据,经过个隐含层逐层传播后,达到输出层输入结果,如图2.2 所示。神经网络采用反向传播(back propagation,,BP)算法进行训练。BP 算法的基本思想是:数据经过网络传播后得到输出结果,如果实际输出与期望输出存在误差,则将输出误差以某种形式通过隐含层向输出层逐层反向传播,并将误差分配到各层的神经元,从而得到所有神经元的误差信号,并以此误差信号修正各个神经元的权值。输入数据的正向传播与输出误差的反向传播是神经网络的一大特点,这个过程一直进行到网络输出的误差较少到可接受的程度,或者达到预先设定的学习次数为止。输入 隐含层 隐含层 输出图 2.2 人工神经网络2.2 卷积神经网络的基本思想CNN 是人工神经网络的变种,其来源于 Hubel 和 Wiesel 对于猫初级视皮层的研究。初级视皮层包括简单细胞(simple cell)和复杂细胞(complex cell)。简单细胞主要感知其局部感受野(local receptive fields)内的特定边缘刺激,而复杂细胞以简单细胞的响应作为输入,以更大的局部感受野响应边缘刺激。
特征(如图 2.3 所示),有效模拟人脑初级视皮层中简单细胞的功能。一NN 会利用多组卷积核(10×10)提取多种特征,则将产生 N×102个权值卷积核的组数(也就是特征图的个数)。
【学位授予单位】:华南农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TP183
【参考文献】
相关期刊论文 前1条
1 段宝彬;韩立新;;改进的深度卷积网络及在碎纸片拼接中的应用[J];计算机工程与应用;2014年09期
本文编号:2556884
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2556884.html