当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视觉—语言跨模态匹配

发布时间:2020-03-31 21:14
【摘要】:随着人机交互的发展,信息往往同时存在于语言,声音,图像等多个模态当中,如何有效地利用计算机对跨模态信息进行管理和理解已经成为人工智能领域一个热门的研究课题。本文专注于视觉和语言两个模态信息的匹配,即给定文本描述,挖掘与其匹配的图像区域或图像。我们首先按照开闭词集将论文划分为两大模块:第三,四章为闭词集任务;第五章为开词集任务。在现有工作的基础上,第三章提出了层次化奖励函数来处理相关数据集中的标注不完整,样本不均衡等问题;针对第三章随机采样和预训练模型的不足,第四章进一步提出了针对本任务的难负样本挖掘策略,并首次在监督学习的该任务中引进了知识库模块。在基于层次化奖励函数的方法中,我们首先分析了交叉熵损失被直接应用到视觉-语言匹配任务中时会产生的问题;为缓解这些问题,我们提出了一个层次化奖励函数,它动态地为目标,上下文和背景物体生成不同的学习率。为了尽可能的使训练与推理目标一致,我们利用层次化奖励函数来近似地最大化R@K指标作为目标函数,并使用策略梯度来求解该不可导函数。此外,我们改进了三元组损失来进一步提升性能,并利用混淆矩阵实现了由简到难的学习过程。在困难上下文物体挖掘的计算方法中,我们通过经典的视觉-语言匹配网络为每个图像区域评分,并将得分较高的负样本作为难负样本,与正样本一起送入第三阶段网络训练。该网络与评分网络结构相同,但输入为困难视觉样本与包括上下文短语在内的所有短语。此外,为了使得模型先验知识包含的物体类别不再局限于视觉特征提取模块的预训练模型中的类别,我们首次在监督学习的视觉-语言匹配任务中引入了知识库模块,并以文本相似度为桥梁,为每一个图像区域加权来过滤掉不类别匹配模块。在基于互联网的弱监督的开词集(可以在输入的文字中使用任意单词)计算方法中,为了将模型未学习过的单词转化为可计算的向量,我们利用互联网来挖掘这些单词的视觉特征表达,并利用挖掘高质量图像区域来提高框架性能。我们在针对句子-图像的视觉-语言匹配任务中验证了本文算法的有效性。为了进一步证明本文算法的实用价值,我们收集网络中真实的游记数据并提出了数据集TVN25,并在该数据集上进行了“游记配图”任务。本章算法无需人工标注(弱监督),具有高拓展性,有利于视觉-语言匹配任务的大规模商业化应用。
【图文】:

流程图,视觉语言,语义,片段


我们额外提取句子中表示地点的词,并将其加在每一个提取的语义片段中。在提取到语义片段后(具体示例如图5-2中左上角部分和图5-3所示),我们将挖掘得到的文本语义片段放入例如Google Image等搜索引擎中搜索图片,对于每一断文本语义片段,我们下载其前20个搜索结果并存储,形成文本语义片段对应- 61 -

语义,文本,片段,示例


[84]来获得语义片段,获得语义片段的方式如图5-3所示,利用Stanford Lexical Parser可以提取出文本中的各种词性,当每个单词和词组都被贴上词性标签后,我们按照如下规则组合语义片段: 对于名词,直接作为语义片段; 动词和动作发生者一起作为语义片段; 形容词和和被修饰者一起作为语义片段; 对于TV25数据集,我们额外提取句子中表示地点的词,并将其加在每一个提取的语义片段中。在提取到语义片段后(具体示例如图5-2中左上角部分和图5-3所示),我们将挖掘得到的文本语义片段放入例如Google Image等搜索引擎中搜索图片,对于每一断文本语义片段,,我们下载其前20个搜索结果并存储
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP18;TP391.1

【相似文献】

相关期刊论文 前10条

1 张颖;;图像区域边界抽出及漫游的实现[J];科学家;2017年01期

2 刘威;遇冰;周婷;袁淮;;基于多特征融合的图像区域几何标记[J];东北大学学报(自然科学版);2017年07期

3 杨根福;;图像区域选择方法与技巧[J];印刷杂志;2009年12期

4 刘亮;向碧群;桂晓菁;;海水漏油图像区域面积计算方法研究[J];计算机仿真;2012年08期

5 徐和德;;尼康相机新功能——“图像区域” 你用还是不用?[J];照相机;2014年12期

6 欧佳佳;蔡碧野;熊兵;李峰;;基于灰度共生矩的图像区域复制篡改检测[J];计算机应用;2011年06期

7 史进玲;;一种度量图像区域相似性的粒计算方法[J];科技信息;2012年26期

8 佟强;;图像区域粗糙分割情况下的区域物体分类[J];计算机辅助设计与图形学学报;2010年07期

9 徐姗姗;刘应安;徐f;;针对图像区域连续化问题的立体匹配算法[J];南京师范大学学报(工程技术版);2011年04期

10 胡卫平,邱静,陆菊康;一种数字图像区域处理技术的设计与应用[J];微计算机应用;2000年06期

相关会议论文 前4条

1 何建强;雷俊;;基于层次格子坐标系的图像识别方法[A];广西计算机学会2006年年会论文集[C];2006年

2 佟强;;图像区域粗糙分割情况下的区域物体分类[A];第四届全国几何设计与计算学术会议论文集[C];2009年

3 刘兵;司秉玉;;基于图像区域搜索法的彩色球目标识别与跟踪[A];中国仪器仪表学会第五届青年学术会议论文集[C];2003年

4 田原;谭铁牛;孙洪赞;胡卫明;;一种能处理部分遮挡的鲁棒性实时跟踪方法[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年

相关博士学位论文 前6条

1 伊马木(MAHMOUD EMAM ABD ELMOHSEN EMAM);图像区域拷贝检测关键技术研究[D];哈尔滨工业大学;2017年

2 郭乔进;基于上下文的图像区域标注关键技术研究[D];南京大学;2013年

3 梁君;图像区域显著性方法研究[D];西北工业大学;2016年

4 赵洁;数字图像区域复制篡改的被动取证方法研究[D];天津大学;2015年

5 刘硕研;面向感知的图像场景及情感分类算法研究[D];北京交通大学;2011年

6 钱诚;增量型目标跟踪关键技术研究[D];浙江大学;2011年

相关硕士学位论文 前10条

1 张军磊;基于深度学习的视觉—语言跨模态匹配[D];哈尔滨工业大学;2019年

2 苏靖;基于深度学习框架的移动设备显示省电研究[D];河南大学;2018年

3 徐小程;基于弱监督的图像区域自动标注算法研究[D];山东大学;2016年

4 沈家骏;基于行为图像区域的行为识别算法研究[D];燕山大学;2016年

5 聂云英;数字图像区域复制篡改被动盲取证新方法研究[D];湖南大学;2011年

6 向立文;图像区域字符分割系统的设计与实现[D];昆明理工大学;2014年

7 周卫财;基于电容层析成像技术的图像重建的数学模型的研究[D];天津大学;2007年

8 崔玉岩;数字图像区域复制篡改检测技术研究[D];重庆邮电大学;2016年

9 梁爽爽;抗自然干扰的图像区域复制篡改盲检测算法研究[D];沈阳工业大学;2015年

10 丁轶;基于LDA的图像区域标注模型的研究[D];南京大学;2012年



本文编号:2609587

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2609587.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户95ceb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com