当前位置:主页 > 科技论文 > 自动化论文 >

基于图文检索的多模态学习算法研究

发布时间:2021-07-17 11:07
  随着大数据时代的到来,不同模态类型的数据比如文本、图像、视频、音频等在互联网上飞速增长。这些多模态数据从多个不同的角度描述着同一个事件,其中的互补信息使人们对事件的认知更加全面。为了更好地利用多模态数据,人们尝试对多模态数据进行建模处理,各种行之有效的多模态学习算法随之被提出,并涌现出了很多热门的多模态数据研究领域,比如跨模态检索等。目前在多模态深度学习中存在的问题是:多模态数据存在着噪声标签或者标签缺失的情况,且人工验证代价高昂,这样迫切需要可以有效利用噪声标签进行多模态学习的方法;另外,现有的多模态数据相关性挖掘方法主要集中在单层次的挖掘,这往往仅能捕获部分的层次关联,这就需要一种更全面的多层次相关性挖掘算法来捕捉不同模态数据间的复杂相关性。因此,本论文重点研究如何利用多模态数据集噪声标签进行有效的多模态学习,以及如何多层次深度挖掘多模态数据相关性并将其应用到跨模态检索系统中。首先,针对多模态数据集存在的噪声标签问题,我们提出了一种噪声标签清洗、预测方法。该方法的网络主体结构包括图像嵌入子网络、文本嵌入子网络、融合网络层、非线性映射层等,并采用弱监督方法,利用多模态数据集中存在的部... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

基于图文检索的多模态学习算法研究


所提算法在测试集上的性能表现图

性能表现,测试集,算法


第四章 基于多层次相关性挖掘的跨模态数据检索方法51图4.9 所提算法在 Flickr8K dataset 测试集上的性能表现图图 4.10 是随着迭代次数的增加,所提跨模态检索算法在 Flickr30K dataset 测试集上的性能表现图:图4.10 所提算法在 Flickr30K dataset 测试集上的性能表现图从上述实验结果我们可知:与 MCNN 方法相比,在 Flickr8K 数据集上,我们提出的方法在Imageretrieval实验中,R@10检索指标提升0.8%左右,在Sentenceretrieval实验中,R@10 检索指标提升 1.6%左右;在 Flickr30K 数据集上,我们提出的方法在Imageretrieval 实验中

性能表现,测试集,算法,数据集


图 4.10 是随着迭代次数的增加,所提跨模态检索算法在 Flickr30K dataset 测试集上的性能表现图:图4.10 所提算法在 Flickr30K dataset 测试集上的性能表现图从上述实验结果我们可知:与 MCNN 方法相比,在 Flickr8K 数据集上,我们提出的方法在Imageretrieval实验中,R@10检索指标提升0.8%左右,在Sentenceretrieval实验中,R@10 检索指标提升 1.6%左右;在 Flickr30K 数据集上,我们提出的方法在Imageretrieval 实验中,R@10 检索指标提升 1.2%左右

【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou.  National Science Review. 2018(01)



本文编号:3288057

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3288057.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7506c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com