用卷积神经网络的多标签图像检索方法研究
发布时间:2021-07-26 13:20
近些年,关于图像检索的研究趋向于成熟,但是依然存在多个亟待解决的问题,如消除语义鸿沟,降低图像特征维度,提高图像检索速度等。最初研究学者们将哈希算法应用于图像检索中,有效地缓解了图像特征存储和计算的问题。但是又引出了哈希码与图像特征之间存在差异的问题。近些年,研究学者们将深度学习融入图像检索中,使得检索中能提取图像更深层次的特征。卷积神经网络与哈希算法结合形成图像检索模型是图像检索的发展趋势,但是这种模型并不成熟,而且卷积神经网络本身处于发展阶段,需要克服一些问题,如模型的构建,模型参数选择与优化,语义鸿沟等。本文则根据以上问题设计了合适的图像检索框架。论文主要工作如下:(1)学习并分析卷积神经网络工作原理和优化方法,同时研究了关于哈希函数的多种算法;(2)改进传统图像检索框架。本文利用任意两个图像的标签生成图像对标签作为预期值,并且将两个图像最终得到的特征值转换为这一对图像的实际值。网络的训练标准由利用单个图像的特征和标签改变为利用图像对的实际值和预期值;(3)本文改进了传统的用于特征提取的卷积神经网络模型VGG。在VGG模型基础上对网络架构进行了改进,用多层感知器和全局平均池化层替...
【文章来源】:重庆邮电大学重庆市
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
卷积神经网络结构
图2.2 是一个神经元空间排列的示例图:图 2.2 空间排列的示例图图 2.2 中的空间是一维的(x 轴),有一个感受野 F=3 的神经元,输入大小 W=5,零填充 P=1。左图的神经元移动步幅为 1,可以得到输出大小为(5-3+2)/1+1=5。右图神经元移动步幅为 2,得到输出大小为(5-3+2)/2+1=3。可以发现步幅不能为 3,因为步幅为 3 时神经元恰好不合适地与输入进行卷积,就公式来说,3 无法被(5-3+2)整除。可以由图 2.2 看出设置合理的零填充与步幅可以更好地提取输入图像的特征。2. 参数共享卷积层利用参数共享方法控制参数个数。假设有 3025×96=290 400 个神经元在一个卷积层
2.1.2 池化层CNN 的另一个重要概念是池化,是一种非线性下采样方法。卷积神经网络中,池化层周期性地穿插在连续的两个卷积层之间,它的主要作用是保留重要的特征,逐步减少图像特征的大小[37],从而减少网络中的参数和计算量,同时也可以控制过拟合。现在有多种实现池化的非线性池化方法,其中最常用的是最大池化(maxpooling)[37],最大池化如图 2.3 所示。池化层的操作在输入中的每个深度切面独立运行,并且使用最大池化方法取局部的最大值,调整输入的大小。最常见的形式是带有 2×2 的滤波器的池化层,在输入的每个深度切面上沿着宽度和高度进行步幅为 2 的下采样,获取 2×2 中最大的特征值,放弃切面上 75%的不是特别重要的特征值。每次进行最大池化操作需要最少 4 个特征值,池化后深度保持不变。
【参考文献】:
期刊论文
[1]FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法[J]. 刘冶,潘炎,夏榕楷,刘荻,印鉴. 计算机科学. 2016(09)
[2]基于深度卷积神经网络和二进制哈希学习的图像检索方法[J]. 彭天强,栗芳. 电子与信息学报. 2016(08)
[3]基于内容的图像检索技术[J]. 董来苍,陈实. 科技资讯. 2008(24)
博士论文
[1]关于互联网视觉媒体若干问题的研究和应用[D]. 胡珍珍.合肥工业大学 2014
硕士论文
[1]基于视频的高铁列车检测算法研究[D]. 张会朋.北京交通大学 2017
[2]卷积神经网络的研究与应用[D]. 徐姗姗.南京林业大学 2013
本文编号:3303642
【文章来源】:重庆邮电大学重庆市
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
卷积神经网络结构
图2.2 是一个神经元空间排列的示例图:图 2.2 空间排列的示例图图 2.2 中的空间是一维的(x 轴),有一个感受野 F=3 的神经元,输入大小 W=5,零填充 P=1。左图的神经元移动步幅为 1,可以得到输出大小为(5-3+2)/1+1=5。右图神经元移动步幅为 2,得到输出大小为(5-3+2)/2+1=3。可以发现步幅不能为 3,因为步幅为 3 时神经元恰好不合适地与输入进行卷积,就公式来说,3 无法被(5-3+2)整除。可以由图 2.2 看出设置合理的零填充与步幅可以更好地提取输入图像的特征。2. 参数共享卷积层利用参数共享方法控制参数个数。假设有 3025×96=290 400 个神经元在一个卷积层
2.1.2 池化层CNN 的另一个重要概念是池化,是一种非线性下采样方法。卷积神经网络中,池化层周期性地穿插在连续的两个卷积层之间,它的主要作用是保留重要的特征,逐步减少图像特征的大小[37],从而减少网络中的参数和计算量,同时也可以控制过拟合。现在有多种实现池化的非线性池化方法,其中最常用的是最大池化(maxpooling)[37],最大池化如图 2.3 所示。池化层的操作在输入中的每个深度切面独立运行,并且使用最大池化方法取局部的最大值,调整输入的大小。最常见的形式是带有 2×2 的滤波器的池化层,在输入的每个深度切面上沿着宽度和高度进行步幅为 2 的下采样,获取 2×2 中最大的特征值,放弃切面上 75%的不是特别重要的特征值。每次进行最大池化操作需要最少 4 个特征值,池化后深度保持不变。
【参考文献】:
期刊论文
[1]FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法[J]. 刘冶,潘炎,夏榕楷,刘荻,印鉴. 计算机科学. 2016(09)
[2]基于深度卷积神经网络和二进制哈希学习的图像检索方法[J]. 彭天强,栗芳. 电子与信息学报. 2016(08)
[3]基于内容的图像检索技术[J]. 董来苍,陈实. 科技资讯. 2008(24)
博士论文
[1]关于互联网视觉媒体若干问题的研究和应用[D]. 胡珍珍.合肥工业大学 2014
硕士论文
[1]基于视频的高铁列车检测算法研究[D]. 张会朋.北京交通大学 2017
[2]卷积神经网络的研究与应用[D]. 徐姗姗.南京林业大学 2013
本文编号:3303642
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3303642.html