基于对抗网络的跨模态检索方法研究

发布时间:2021-06-16 15:15
  随着通信和互联网技术的飞速发展,多模态数据急剧增加。海量的多模态数据在方便用户的同时,也对信息检索技术提出了新的挑战。为了更好的满足用户对模态数据检索的需求,同时使计算机具有模拟人脑对海量的多模态数据进行认知、学习以及推理决策的能力,跨模态检索技术应时而生。深度神经网络类似于多层非线性投影,拥有比浅层方法更强的映射能力,可以充分提取不同模态的多阶抽象表示。其中,生成对抗网络能有效拟合多模态数据的分布,更好地学习多模态数据的共同表示。本文在对抗网络的基础上,融合了字典学习、度量学习和对偶子空间的思想,有效捕捉多模态数据的结构信息和语义信息,较好地消除了异构鸿沟和语义鸿沟。本文工作和创新点如下:1.提出一种基于秩约束的语义一致性跨模态字典学习(Semantic Consistency cross-modal Dictionary learning algorithm with rank Constraint,SCDC)方法。该方法将l21范数和秩范数约束引入到字典学习中。随后,我们引入生成对抗机制,提出一种基于字典学习的对抗跨模态检索(Adversarial Cros... 

【文章来源】:山东师范大学山东省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于对抗网络的跨模态检索方法研究


社交网络上的图像和文本资源

示意图,示意图,生成模型,样本


山东师范大学硕士学位论文7第二章生成对抗网络概述近年来,随着计算机硬件性能的提升和价格的下降,人工智能领域发展迅猛,生成模型作为该领域重要的分支,极具研究意义。尤其是生成对抗网络(GAN)的出现,将生成模型的探索逐渐推向高潮。GAN可以估计数据样本的潜在分布,构建出符合该分布的模型,生成符合要求的多种数据类型的新样本,并使得模型具有较好的自学习能力。相比于拟合数据的能力,GAN所提出的生成对抗的相关思想意义重大、成果瞩目。本章将从网络结构、损失函数和训练机制三个方面详细阐述GAN的博弈对抗思想,并探究其在跨模态检索领域的应用。2.1经典的生成对抗网络2.1.1网络结构GAN将博弈论作为理论基础,构造了生成器(Generator,G)和判别器(Discriminator,D)两个对抗者。其中,生成器G把服从先验概率分布的噪声z作为输入,尽可能拟合出一个类似于真实数据分布的新数据分布,用来欺骗D。判别器D把真实样本x和G生成的样本G(z;q)作为输入,q代表网络中的参数,并尽可能的将两种数据区分开。G和D相互对抗不断迭代,直至达到纳什均衡。以统计学的角度来看,G和D分布相当于生成模型及判别模型。G利用最大似然估计对模型参数进行训练,迫使G在构造生成样本时按指定的目标进行训练。而D类似于一个二分类器,辨别输入数据来源于生成的还是真实的数据分布。图2-1GAN的结构示意图

示意图,工作机制,示意图


山东师范大学硕士学位论文10因为JS散度具有非负性,当且仅当()()datagpx=px,上式的全局最小值为-log4。所以当使得G的分布满足()()gdatapx=px时,寻得最优生成器*G。2.1.3训练机制GAN的训练是一个交替迭代优化的过程,具体来说,是在优化k次D网络参数和优化一次G网络参数之间交替进行,从而保证G和D相互对抗,同步提升。工作机制如下:图2-2GAN的工作机制示意图。x和z分别表示数据空间和隐变量空间,两者之间的箭头表示映射x=G(z)。蓝色虚线代表D,黑色虚线代表真实数据分布,绿色实线代表G生成样本的数据分布。图2-2(a)中,D是部分精准分类器,可以部分辨别生成数据和真实数据。图2-2(b)中,通过固定G优化D,使得D的判别能力大幅度提升。图2-2(c)中,固定D优化G,生成数据的分布逐渐向真实数据分布靠近,G试图混淆D辨别两种数据。最终收敛于图2-2(d),蓝色虚线逐渐变为水平线,D失去其判别能力,此时,黑色虚线和绿色实线完全重合,网络收敛。2.2GAN的改进模型GAN自提出以来备受广大研究者青睐,其应用也渗透到了计算机视觉、生物医疗和信息安全等领域。如何训练GAN也成为极具挑战的话题。GAN的训练主要存在以下两个难点:训练过程过于自由和原始目标函数没意义。理论上说,我们只要有一个满足高斯分布的噪音输入,一个真实的训练样本集,两个可以逼近函数的神经网络就可以构

【参考文献】:
期刊论文
[1]跨媒体深层细粒度关联学习方法[J]. 卓昀侃,綦金玮,彭宇新.  软件学报. 2019(04)
[2]多媒体内容理解的研究现状与展望[J]. 彭宇新,綦金玮,黄鑫.  计算机研究与发展. 2019(01)
[3]An Angle Structure Descriptor for Image Retrieval[J]. Meng Zhao,Huaxiang Zhang,Lili Meng.  中国通信. 2016(08)



本文编号:3233306

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3233306.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0c99***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com