基于深度学习的图文跨模态检索
发布时间:2021-07-31 07:49
随着互联网、大数据、人工智能等新一代信息技术的快速发展,大数据分析、跨媒体计算、群体智能、协同与优化、机器学习、类脑智能等核心理论的研究不断深入。跨模态检索作为跨媒体计算领域的重要内容和应用,也受到了越来越广泛地关注。现有的大多数跨模态检索方法都在一定程度上存在着模态特征表示能力不够强以及特征关联模型有待进一步改进的问题。本文针对这些问题,提出了基于对抗网络的图文模态特征关联方法(FCMAN)。该方法首先对图像模态的特征表示能力进行增强,通过融合图像模态的不同特征以增强图像模态的特征表示能力。其次,在利用一个对抗网络进行特征关联建模的基础上引入了两个新的对抗网络,引入的两个对抗网络的作用分别是对图文两种模态的真实标签和投影特征的预测标签进行建模,从而通过多个对抗网络组合的图文模态特征关联模型,进一步学习图文模态的特征相关性。同时,为了检验FCMAN的性能并直观地展示检索效果,设计并实现了一个图文跨模态检索系统。利用该系统,用户可以输入图文任一模态的数据进行检索。在初次检索的基础上,通过融合相关反馈技术,使得检索的准确率得到进一步提高。实验分析和应用结果表明,本文提出的FCMAN能够更有...
【文章来源】:重庆邮电大学重庆市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
论文总体结构图
重庆邮电大学硕士学位论文第2章相关技术研究12变矩法等。林克正等[40]针对单一梯度直方图特征提取方法会丢失图像局部特征的问题提出了一种新的基于分块Gabor的图像特征提取算法。4.空间关系特征提取方法空间关系是指图像中的多个物体之间存在着某些相对方向关系或者空间位置关系,比如常见的包容和包含关系、邻接和连接关系等。常用的图像空间特征提取方法有两种:第一种是根据图像中某一物体或者属性对图像进行分割后进行特征提取;第二种是简单的把图像分割成若干规则的子图像,再分别对每个子图像进行特征提龋D.G.Lowe[41]提出了一种从图像中提取尺度不变特征变换特征的方法,可以用于不同视角之间目标或场景的可靠匹配。5.基于深度学习的特征提取方法深度学习强大的特征提取能力能够获得比手工提取的特征表示能力更强的特征,因此深度学习在图像特征提取方面得到了越来越广泛地研究与应用。而且基于深度学习方法提取的深度特征也越来越广泛地应用到跨模态检索领域。2.2基于深度学习的特征建模方法对不同模态的特征提取完成之后,需要对不同模态的特征进行关联建模。随着深度学习的快速发展,深度学习方法在跨模态检索领域当中也得到了越来越广泛地应用。除了利用深度学习方法进行特征提取之外,基于深度学习的特征建模方法也是跨模态检索领域的主要研究内容之一。2.2.1卷积神经网络图2.1卷积神经网络结构图卷积神经网络(ConvolutionalNeuralNetwork,CNN)本质上是一种从输入层到输出层之间层与层的映射关系。从输入层开始,输入的图像经过若干卷积层、池化
重庆邮电大学硕士学位论文第2章相关技术研究13层和全连接层的处理之后得到特征输出,它能够自动学习大量的输入层到输出层之间的映射关系,只需要用已知的模式来训练卷积神经网络,训练完成之后,神经网络就具有从输入层到输出层之间的映射能力。目前,卷积神经网络已经成为众多科学领域的研究热点之一,包括目标检测、人脸识别等。卷积神经网络的一个优点是隐式而非显式地从大量的训练数据中进行特征学习;另外一个优点是可以并行学习。而且卷积神经网络权值共享的特点降低了神经网络的复杂性,因而也得到了更加广泛地应用。卷积神经网络的结构图如图2.1所示。A.Krizhevsky等[42]提出了一个名为AlexNet的深层卷积神经网络架构,该架构在2010年的ImageNet大规模视觉识别挑战赛ILSVRC中取得了桂冠。C.Szegedy等[43]提出了一个名为Inception的深层卷积神经网络架构,该架构在2014年的ILSVRC中取得了很好的成绩。K.He等[44]提出了一个名为ResNet的残差网络架构,该架构在2015年的ILSVRC的分类任务中取得第一名的成绩。M.D.Zeiler等[45]研究了卷积神经网络的每一层学习了什么样的特征,然后通过可视化的手段对神经网络结构进行调整,以此来提高了精度。2.2.2自动编码器图2.2自动编码器结构图自动编码器(AutoEncoder,AE)主要分为编码器和解码器两个部分。编码器部分是对输入的进行编码,编码后得到新的特征。解码器部分则是希望原始输入能够从新的特征重构出来。假设编码器网络权重系数为,偏置为。编码过程如下:=(+)(2.1)其中为激活函数。
【参考文献】:
期刊论文
[1]分块Gabor结合梯度直方图的特征提取算法[J]. 林克正,张元铭,李昊天. 小型微型计算机系统. 2019(12)
[2]基于多语义因子分层聚类的文本特征提取方法[J]. 王靖,柳青,张德海,赵华,杨云. 计算机应用研究. 2020(10)
[3]基于深度学习的文本特征提取研究综述[J]. 张千,王庆玮,张悦,纪校锋,张宇翔,祝赫,赵昌志. 计算机技术与发展. 2019(12)
[4]基于自适应局部二值模式的纹理特征提取方法[J]. 李松,蔡航,于蒙. 计算机应用与软件. 2019(09)
[5]基于哈希算法的异构多模态数据检索研究[J]. 陈凤,蒙祖强. 计算机科学. 2019(10)
[6]基于语义分析的改进TF-IDF算法[J]. 代钰琴,徐鲁强. 西南科技大学学报. 2019(01)
[7]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[8]跨模态检索研究综述[J]. 欧卫华,刘彬,周永辉,宣瑞晟. 贵州师范大学学报(自然科学版). 2018(02)
[9]多媒体信息检索中的查询与反馈技术[J]. 查正军,郑晓菊. 计算机研究与发展. 2017(06)
[10]相关反馈在信息检索中的研究综述[J]. 于莹莹,陈燕,张金松. 情报理论与实践. 2016(12)
本文编号:3313077
【文章来源】:重庆邮电大学重庆市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
论文总体结构图
重庆邮电大学硕士学位论文第2章相关技术研究12变矩法等。林克正等[40]针对单一梯度直方图特征提取方法会丢失图像局部特征的问题提出了一种新的基于分块Gabor的图像特征提取算法。4.空间关系特征提取方法空间关系是指图像中的多个物体之间存在着某些相对方向关系或者空间位置关系,比如常见的包容和包含关系、邻接和连接关系等。常用的图像空间特征提取方法有两种:第一种是根据图像中某一物体或者属性对图像进行分割后进行特征提取;第二种是简单的把图像分割成若干规则的子图像,再分别对每个子图像进行特征提龋D.G.Lowe[41]提出了一种从图像中提取尺度不变特征变换特征的方法,可以用于不同视角之间目标或场景的可靠匹配。5.基于深度学习的特征提取方法深度学习强大的特征提取能力能够获得比手工提取的特征表示能力更强的特征,因此深度学习在图像特征提取方面得到了越来越广泛地研究与应用。而且基于深度学习方法提取的深度特征也越来越广泛地应用到跨模态检索领域。2.2基于深度学习的特征建模方法对不同模态的特征提取完成之后,需要对不同模态的特征进行关联建模。随着深度学习的快速发展,深度学习方法在跨模态检索领域当中也得到了越来越广泛地应用。除了利用深度学习方法进行特征提取之外,基于深度学习的特征建模方法也是跨模态检索领域的主要研究内容之一。2.2.1卷积神经网络图2.1卷积神经网络结构图卷积神经网络(ConvolutionalNeuralNetwork,CNN)本质上是一种从输入层到输出层之间层与层的映射关系。从输入层开始,输入的图像经过若干卷积层、池化
重庆邮电大学硕士学位论文第2章相关技术研究13层和全连接层的处理之后得到特征输出,它能够自动学习大量的输入层到输出层之间的映射关系,只需要用已知的模式来训练卷积神经网络,训练完成之后,神经网络就具有从输入层到输出层之间的映射能力。目前,卷积神经网络已经成为众多科学领域的研究热点之一,包括目标检测、人脸识别等。卷积神经网络的一个优点是隐式而非显式地从大量的训练数据中进行特征学习;另外一个优点是可以并行学习。而且卷积神经网络权值共享的特点降低了神经网络的复杂性,因而也得到了更加广泛地应用。卷积神经网络的结构图如图2.1所示。A.Krizhevsky等[42]提出了一个名为AlexNet的深层卷积神经网络架构,该架构在2010年的ImageNet大规模视觉识别挑战赛ILSVRC中取得了桂冠。C.Szegedy等[43]提出了一个名为Inception的深层卷积神经网络架构,该架构在2014年的ILSVRC中取得了很好的成绩。K.He等[44]提出了一个名为ResNet的残差网络架构,该架构在2015年的ILSVRC的分类任务中取得第一名的成绩。M.D.Zeiler等[45]研究了卷积神经网络的每一层学习了什么样的特征,然后通过可视化的手段对神经网络结构进行调整,以此来提高了精度。2.2.2自动编码器图2.2自动编码器结构图自动编码器(AutoEncoder,AE)主要分为编码器和解码器两个部分。编码器部分是对输入的进行编码,编码后得到新的特征。解码器部分则是希望原始输入能够从新的特征重构出来。假设编码器网络权重系数为,偏置为。编码过程如下:=(+)(2.1)其中为激活函数。
【参考文献】:
期刊论文
[1]分块Gabor结合梯度直方图的特征提取算法[J]. 林克正,张元铭,李昊天. 小型微型计算机系统. 2019(12)
[2]基于多语义因子分层聚类的文本特征提取方法[J]. 王靖,柳青,张德海,赵华,杨云. 计算机应用研究. 2020(10)
[3]基于深度学习的文本特征提取研究综述[J]. 张千,王庆玮,张悦,纪校锋,张宇翔,祝赫,赵昌志. 计算机技术与发展. 2019(12)
[4]基于自适应局部二值模式的纹理特征提取方法[J]. 李松,蔡航,于蒙. 计算机应用与软件. 2019(09)
[5]基于哈希算法的异构多模态数据检索研究[J]. 陈凤,蒙祖强. 计算机科学. 2019(10)
[6]基于语义分析的改进TF-IDF算法[J]. 代钰琴,徐鲁强. 西南科技大学学报. 2019(01)
[7]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[8]跨模态检索研究综述[J]. 欧卫华,刘彬,周永辉,宣瑞晟. 贵州师范大学学报(自然科学版). 2018(02)
[9]多媒体信息检索中的查询与反馈技术[J]. 查正军,郑晓菊. 计算机研究与发展. 2017(06)
[10]相关反馈在信息检索中的研究综述[J]. 于莹莹,陈燕,张金松. 情报理论与实践. 2016(12)
本文编号:3313077
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3313077.html
最近更新
教材专著