大批量训练的图文跨模态哈希检索方法研究
发布时间:2021-01-15 22:11
互联网和多媒体技术的快速发展,产生了大量不同模态的多媒体数据,跨模态检索成为信息检索领域的研究热点。跨模态哈希方法可以有效地为不同模态的数据建立比较关系,通过将数据转换成固定长度的哈希码,按位异或运算快速得到数据间的相似性。随着深度学习的发展,越来越多的基于深度学习的跨模态哈希方法被提出。然而这些方法都采用小批量训练方式训练模型,使得模型在训练过程中每次更新参数时获取样本数量有限,其目标函数不能得到好的梯度,影响最终训练模型的检索性能。针对此问题,本文提出了一种大批量训练的跨模态哈希方法,该方法采用大批量训练方式训练模型,以获得更好的梯度。但是,仅仅增加批量大小会导致训练不稳定,使得模型的泛化性能下降。为了解决此问题,本文引入正交正则化来增加大批量训练的稳定性,提高模型的泛化能力。此外还考虑了哈希码的离散性,将哈希码与特征之间的距离加入到目标函数中,使得哈希码能够更加真实地表示数据。在两个广泛使用的跨模态检索数据集上,本文方法与几种现有的跨模态哈希方法进行了检索对比实验,实验结果表明本文方法具有更好的性能。另一方面,现有很多跨模态哈希方法只考虑了模态间各个数据的关系,而忽视了模态内各个...
【文章来源】:重庆邮电大学重庆市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
波斯猫分别用图像和文本两种模态数据进行描述随着不同模态的多媒体数据的快速增长,跨模态检索成为了研究热点
跨模近年来,由于深度学习的快速发展
重庆邮电大学硕士学位论文第2章相关技术综述7第2章相关技术综述2.1深度学习提到深度学习,不得不提卷积神经网络(ConvolutionalNeuralNetworks,CNN),卷积神经网络由LeCun在1998年提出,其提出了LeNet-5模型[38],由卷积层(ConvolutionalLayer),降采样层(SubsampleLayer),全连接层(Full-connectedLayer)和激活函数层等构成,如图2.1所示。卷积层主要用于提取图像的各种特征;降采样层,也被称为池化层(PoolingLayer),主要用于防止过拟合;全连接层主要用于将卷积层提取的各种特征整合在一起,映射为一个可供计算机判断的值或者向量;而激活函数层主要用于增加神经网络的非线性变化的能力。LeNet-5模型对设备性能要求较高,因此在计算机性能不足的当时并不怎么受欢迎。图2.1LeNet-5模型架构图随着计算机硬件的提升,计算能力显著上升,催生了深度学习[39]。深度学习在ImageNet大赛上的成功应用而被学术界和工业界广泛关注[40]。深度学习对数据的特征进行学习,通过多层网络和激活函数将原来的数据抽象为更高层次的非线性的表达,通过多层网络的各种转换组合,数据的特征得以被计算机学习,使得计算机更加容易的理解数据[41]。由此,各个研究人员开始研究深度学习技术,推动了卷积神经网络的发展,各种卷积神经网络结构相继被提出,比如AlexNet[40],VGG-Nets[42,43]等。牛津大学VisualGeometryGroup团队在2014年提出了VGG-Nets,并在当年的ILSVRC定位任务获得了第一名,在图像的特征提取方面效果显著,在多个迁移学习任务中表现很好。因此,很多研究人员使用VGG-Nets在ImageNet图像数据集上预先训练的模型用于初始化自己的网络或者直接提取图像特征,这
本文编号:2979601
【文章来源】:重庆邮电大学重庆市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
波斯猫分别用图像和文本两种模态数据进行描述随着不同模态的多媒体数据的快速增长,跨模态检索成为了研究热点
跨模近年来,由于深度学习的快速发展
重庆邮电大学硕士学位论文第2章相关技术综述7第2章相关技术综述2.1深度学习提到深度学习,不得不提卷积神经网络(ConvolutionalNeuralNetworks,CNN),卷积神经网络由LeCun在1998年提出,其提出了LeNet-5模型[38],由卷积层(ConvolutionalLayer),降采样层(SubsampleLayer),全连接层(Full-connectedLayer)和激活函数层等构成,如图2.1所示。卷积层主要用于提取图像的各种特征;降采样层,也被称为池化层(PoolingLayer),主要用于防止过拟合;全连接层主要用于将卷积层提取的各种特征整合在一起,映射为一个可供计算机判断的值或者向量;而激活函数层主要用于增加神经网络的非线性变化的能力。LeNet-5模型对设备性能要求较高,因此在计算机性能不足的当时并不怎么受欢迎。图2.1LeNet-5模型架构图随着计算机硬件的提升,计算能力显著上升,催生了深度学习[39]。深度学习在ImageNet大赛上的成功应用而被学术界和工业界广泛关注[40]。深度学习对数据的特征进行学习,通过多层网络和激活函数将原来的数据抽象为更高层次的非线性的表达,通过多层网络的各种转换组合,数据的特征得以被计算机学习,使得计算机更加容易的理解数据[41]。由此,各个研究人员开始研究深度学习技术,推动了卷积神经网络的发展,各种卷积神经网络结构相继被提出,比如AlexNet[40],VGG-Nets[42,43]等。牛津大学VisualGeometryGroup团队在2014年提出了VGG-Nets,并在当年的ILSVRC定位任务获得了第一名,在图像的特征提取方面效果显著,在多个迁移学习任务中表现很好。因此,很多研究人员使用VGG-Nets在ImageNet图像数据集上预先训练的模型用于初始化自己的网络或者直接提取图像特征,这
本文编号:2979601
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2979601.html
最近更新
教材专著