当前位置:主页 > 科技论文 > 自动化论文 >

面向图像与文本的多模态关联学习的研究与应用

发布时间:2020-07-30 12:31
【摘要】:多模态关联学习是多媒体理解任务的基石,并且具有广泛的应用场景。但是多模态关联学习由于其输入数据不同模态之间的巨大差异往往被认为是一个很具有挑战的研究课题。而多模态关联学习的关键是在于为不同模态的输入数据建立相互关联关系。本文专注于包括多模态数据对齐以及多模态关联特征学习在内的关于图像-文本多模态关联学习两大基础研究课题,以及与图像-文本多模态关联学习最为相关的两大重要应用:跨模态图像检索以及多模态视觉问答。首先,针对多模态数据集对齐任务提出了一套新的框架,该框架基于图像和文本之间的互补性,同时依托大规模互联网数据以及深度卷积神经网络技术扩充人工标注图像数据集。其中大规模互联网数据提供大量包含上下文文本信息的图像资源,而深度卷积神经网络则代替人工标注资源在借助文本信息的情况下去除掉大量的噪声图像数据。实验结果表明,基于本文方法可以在保证准确率以及多样性的情况下,从大规模互联数据中显著扩充现有人工标注数据集。通过在图像识别任务和迁移学习任务上实验,证明了基于本文方法自动扩充的图像数据集可以带来显著的性能提升。这也进一步验证了基于大规模互联网数据的多模态数据增强可以带来更多有用的监督信息帮助模型训练。其次,提出了一种全新的基于深度卷积神经网络的图像-文本多模态关联特征学习的算法。通过该深度卷积神经网络可以在同一连续空间中学习文本特征表示和图像特征表示。另外还引入了一种名为交叉卷积滤波器正则化的技术加速卷积神经网络的训练速度,减少了将近一半的训练时间消耗。为了进一步验证基于本文方法学习得到的图像-文本多模态关联特征的质量,定义了基于多模态关联特征的文本-文本以及文本-图像之间的相似度度量方法来自动构建图像数据集。这两个相似度度量方法被用来替代传统人工数据集标注过程中的两个重要步骤:类别关键词扩充以及噪声图片过滤。最终,在不使用任何人工标注数据集的基础上从头构建了一个全新数据集。该数据集不但数据规模与大规模人工标注的数据集接近,且在准确率和数据多样性以及跨数据集泛化能力上都与人工标注数据集不相上下。之后本文主要关注跟多模态关联学习相关的两大重要应用。对于跨模态图像检索,本文介绍了三种不同的框架。第一种是基于典型关联分析的图像检索模型,该方法基于大规模文本语料学习得到的文本特征表示以及有标注图像识别任务学习得到的图像特征表示,通过简单的线性变换将两个不同模态的特征空间映射到同一空间。第二种是基于多任务深度卷积神经网络的图像检索模型,针对该模型本文提出了一种全新的逐任务迁移学习的多任务深度卷积神经网络训练方法,且在有噪声的用户点击数据上学习面向图像检索任务的深度图像特征。最后一种是基于图像-文本多模态关联特征的图像检索模型,使用图像-文本多模态关联特征计算查询关键字与图像之间的相关度,以及计算图像与图像之间的相关度对检索后的图像进行重排序。在大规模图像检索任务上的实验结果表明基于图像-文本多模态关联特征的图像检索模型具有更优性能。本文讨论的另外一个跟多模态关联学习相关的应用是多模态视觉问答任务。该任务由于需要综合考虑对图像内容理解的能力,问句文本信息理解的能力以及图像-问句-答案三元组之间的多模态推理关系,往往被认为是一项难度较大的应用。本文提出了一种基于回归的学习模型来度量图像-问句-答案三元组之间的相互关系。此外,还提出了一种基于注意力的深度张量神经网络结构来完成三元组推理过程。实验结果表明,将本文提出的方法应用在目前广泛使用的视觉问答模型MLB和MUTAN上之后视觉问答任务的性能有了显著提升。概括地说,本文为图像-文本多模态关联学习提出了若干种解决方案,且在多模态数据关联以及多模态特征关联这两个多模态关联学习的基础任务上证明了本文提出方法的有效性。同时,本文提出的方法还进一步提升了跨模态图像检索以及多模态视觉问答这两大多模态关联学习关键应用的性能,这也进一步证明了本文研究内容的实用价值。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.41;TP18

【相似文献】

相关期刊论文 前10条

1 苏树智;朱刚;高鹏连;邓瀛灏;郑苹;;面向多模态图像的广义辅助相关投影方法[J];安徽理工大学学报(自然科学版);2019年04期

2 周毅;;政务多模态图像话语表征探析[J];中国广播电视学刊;2017年06期

3 王佳宇;;“系统功能符号学”视角下多模态语篇的批评性分析框架研究[J];外语艺术教育研究;2011年01期

4 杨?,裴继红,谢维信;一种基于频带一致性的多模态图像校准算法[J];通信学报;2005年04期

5 陈风华;胡冬梅;;多模态隐喻研究20年(1998—2017)——理论、实践与进展[J];外国语文;2018年05期

6 杨小敏;;国外政府网站设计与形象建构:基于多模态视觉语法的分析[J];外国语文研究(辑刊);2018年01期

7 刘泽宇;马龙龙;吴健;孙乐;;基于多模态神经网络的图像中文摘要生成方法[J];中文信息学报;2017年06期

8 朱俊林;;浅析多模态医学图像的配准与融合技术[J];医疗卫生装备;2005年12期

9 黎姿;;电影《流浪地球》海报的多模态三维解读[J];艺术科技;2019年01期

10 闫利;胡修兵;陈长军;马振玲;;多模态图像配准的梯度一致性算子[J];武汉大学学报(信息科学版);2013年08期

相关会议论文 前1条

1 林哲;闫敬文;袁野;;基于稀疏表示和PCNN的多模态图像融合[A];创新驱动与转型发展,推动汕头腾飞——汕头市科协第七届学术年会优秀论文集[C];2014年

相关博士学位论文 前4条

1 白亚龙;面向图像与文本的多模态关联学习的研究与应用[D];哈尔滨工业大学;2018年

2 刘沐寒;光学核素多模态分子影像在肝癌/胃癌肿瘤模型上的应用[D];西安电子科技大学;2017年

3 李盼龙;多模态核磁共振脑图像处理方法的研究及其应用[D];郑州大学;2019年

4 张静亚;非刚体医学图像配准技术研究[D];苏州大学;2015年

相关硕士学位论文 前10条

1 童靖然;基于多模态数据的目标检测与追踪[D];江南大学;2019年

2 王天娇;多模态图像重排序算法研究[D];北京交通大学;2019年

3 王耀煊;面向多模态高层语义的歧视情感检测[D];北京交通大学;2019年

4 罗成伟;基于多模态数据融合的视觉目标跟踪算法研究[D];电子科技大学;2019年

5 朱韦丹;基于多模态图像融合的人脸识别算法研究[D];电子科技大学;2019年

6 杨帆;多模态图像中的目标检测问题研究[D];南京大学;2019年

7 汤琪琦;中美影视公益广告互动意义的多模态话语对比分析[D];厦门大学;2018年

8 江双珊;多模态视角下英文影视片段对培养高中学生英语口语表达能力的研究[D];重庆师范大学;2019年

9 颜晗;基于局部特征的多模态图像配准与融合研究[D];齐鲁工业大学;2019年

10 周雅文;HIV感染者大脑运动功能损伤的多模态磁共振影像学研究[D];中国科学技术大学;2018年



本文编号:2775544

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2775544.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1697***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com