当前位置:主页 > 科技论文 > 自动化论文 >

基于生成对抗机制的跨模态特征关联及应用

发布时间:2020-12-14 23:36
  人类在感知事物时往往会结合视觉、听觉以及触觉等多方面的信息,因为单一模态信息很难去反映真实世界中纷繁复杂的场景。随着移动终端设备的普及,人们可以方便快捷的在互联网上传各种信息,这些信息涉及到文本、语音、图像等多个模态。面对这些海量存在的多模态数据,迫切需要找到不同模态数据之间的联系,从而赋予机器结合多模态信息去完成特定任务的能力。跨模态特征关联技术希望通过数据本身在语义层面建立起不同模态数据之间的关联性,进而能够更加精准的实现诸如跨模态检索这样的多模态数据应用。如今,深度学习的浪潮推动了深度模型的飞速发展,一大批深度神经网络应运而生,生成对抗网络就是其中具有代表性的模型之一。在博弈对抗思想的指导下,生成对抗网络具有一般深度模型难以比拟的数据特征学习能力。对于跨模态特征关联而言,其要求关联后的特征对语义具有判别性,对模态具有一致性。从本质上而言,跨模态特征关联就是一个特征学习的过程,因此生成对抗网络中的博弈对抗思想能够为跨模态特征关联提供有力的工具。在此基础上,本文基于生成对抗机制改进了一种跨模态特征关联算法,并以此构建了一个跨模态检索系统,最后结合多模态数据集验证其在跨模态检索任务上的... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:71 页

【学位级别】:硕士

【图文】:

基于生成对抗机制的跨模态特征关联及应用


GAN极小极大化博弈过程示意图

示意图,网络结构,示意图,数据集


少包含一张图片和 70 个单词的章节,获得 10 类文本图像数据对。最终包含 2886 个文本图像对,其中 2173 个样本为训练集,231 个样本为验个样本为测试集。Pascal Sentences[51]:该数据集收集于 2008 PASCAL 挑战赛所提供的开发它总共包含 20 个语义类别,每个类别有 50 张图片,并且每张图片有人 个句子,总的样本数为 1000。该数据集同样也被分为三个部分,其中训本数为 800,验证集和测试集的样本数均为 100。NUS-WIDE-10K:该数据集是 NUS-WIDE[52]数据集的子集,NUS-WIDE 270k 张图片,每张图片都有相应的文本标注信息;NUS-WIDE-10K 则选样本数目最多的 10 个类别(窗户、水、玩具、天空、人、草、食品、花、),每个类别包含 1000 个样本。该数据集的训练集包含 8000 个样本,验试集均包含 1000 个样本。2 数据特征提取片特征提取

示意图,文本特征,降维,分类结果


图 3.17 PCA 降维后分类结果示意图(文本特征)he illustration of PCA dimension reduction for classification results 图 3.18 PCA 降维后分类结果示意图(图片特征)e illustration of PCA dimension reduction for classification results (

【参考文献】:
博士论文
[1]基于深度学习的跨模态检索研究[D]. 冯方向.北京邮电大学 2015

硕士论文
[1]多模态语义知识库构造方法研究[D]. 陈敏.华中科技大学 2014
[2]基于多模态融合和传播的跨模态信息检索算法[D]. 林婉霞.南京大学 2012



本文编号:2917217

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2917217.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8b25***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com