当前位置:主页 > 科技论文 > 自动化论文 >

基于注意力机制与高层语义的视觉问答研究

发布时间:2020-04-16 19:44
【摘要】:随着大数据、高性能计算工具、深度学习技术的相继出现,人工智能迎来了第三次发展热潮。深度学习模型在计算机视觉、自然语言处理、语音识别等诸多领域取得了突破性的进展。在物体识别、机器翻译、自动问答等多个单模态任务中,基于深度学习的方法在某些大规模数据集上取得了和人类相匹敌的性能。在现实世界中,拥有高级智能的人类面对更加复杂的环境时经常需要多模态信息的感知和推理,从而进行各种决策。近年来,基于视觉和语言的多模态任务引起研究者越来越多的注意,如图像字幕生成、视觉叙事、自动视觉问答等。不同于传统的图像标注任务,图像字幕生成和视觉叙事旨在于用一句话或者一段话来描述图像的主要内容,这同时需要对图片内容进行视觉理解以及生成与图片语义一致的描述。视觉问答旨在于让机器自动回答与图片内容相关的用自然语言描述的问题,其涉及多模态信息(即视觉图片和自然语言描述的问题)的输入,需要对图像内容进行更精细化的理解。自动视觉问答的关键在于视觉和自然语言的共同语义理解,以及视觉与语言之间的联合推理。注意力机制是实现多模态推理的一种有效方式,高层语义衔接了视觉和自然语言之间的语义信息。注意力机制在视觉问答中主要有三个方面的作用:首先,注意力机制能够根据具体提问的问题进行有效信息的定位和提取;其次,注意力机制能够将自然语言和视觉图片在语义上对齐,从而在更细粒度上实现推理;最后,注意力机制通过对注意力热图可视化从而增加模型的可解释型。高层语义在视觉问答中的作用也可以分为两个方面:一方面,从图像中生成的高层语义能够缩小视觉图像和自然语言的问题之间的语义鸿沟,从而能够在共同的语义空间中进行推理;另一方面,与传统图像特征相比,高层语义具有可读性和可解释性,因此为答案的推理和问答系统的错误诊断提供依据。然而现有的自动视觉问答模型通常存在以下两个问题:首先,自动视觉问答的问题具有多样性和复杂性,现有工作通常采用单一层次的图像表达,无法满足各种问题需要的信息;其次,现有的注意力模型对图像不同区域独立计算注意力权重,忽略了图像中物体之间上下文信息,无法回答需要关系推理的问题。基于这些问题,本文对自动视觉问答中的注意力机制进行深入研究,将注意力网络创新性运用于图像不同层次的表达上,进而根据提出的问题进行更有效的信息提取,理解和推理。本文的主要工作和创新点总结如下:基于多层次注意力网络的视觉问答 本文提出了基于多层次注意力网络的视觉问答模型。现有的基于注意力机制的视觉问答模型主要从低层次的视觉信息中推理答案,忽略了图像中高层语义的建模以及不同区域之间的空间关系。本文提出的多层次注意力网络对图像不同层次的信息进行筛选、融合及联合推理,通过语义注意力模块减少语义鸿沟同时通过视觉注意力机制进行更细粒度的空间推理。此外本文使用双向GRU网络对图像不同区域进行关系建模,从而编码区域的上下文信息。本文在两个最有挑战性的VQA数据集上取得了当时的最好结果。基于多源多层次注意力网络的视觉问答 本文提出了多源多层次注意力网络,解决了多层次注意力网络的两个不足之处:第一,多层次注意力网络只能提取视觉表达的不同层次的语义信息,而视觉问答中部分问题需要涉及知识推理;第二,在多层次注意力网络中,双向GRU只能对图像区域进行一维线性展开后再学习空间关系,这破坏了图像本身的二维结构。本文提出的多源多层次注意力网络有三次创新之处:首先,多源多层次注意力网络引入了外部知识库,同时使用来自视觉和知识的多源信息,使得视觉问答系统进行基于知识的推理。其次,本文提出2D-GRU的结构,对图像的上下左右两个维度四个方向进行关系建模,更符合图像的结构特征。最后,在两个最大的VQA数据集上,本文取得了比多层次注意力网络显著更好的结果。基于图注意力网络的视觉问答 本文提出了基于图注意力网络,进一步解决了多源多层次注意力网络的两个不足之处:第一,多源多层次注意力网络从最后一层卷积层抽取图像特征,每个区域感受野是均匀分割的固定大小的区域,不符合物体本身多尺度变化的特征;第二,多源多层次注意力网络对视觉特征按照注意力进行加权平均,丢失区域的位置信息。针对这两个不足之处,本文提出的图注意力网络,能够对物体之间的关系建立图结构,对图的节点和边分别进行注意力建模,然后通过图嵌入的方法,解决不同物体信息融合的问题。基于属性和字幕的可解释视觉问答 本文提出将传统端到端的视觉问答任务分解为两步,解释和推理,通过阐明这两步的中间结果尝试建造一个可解释的视觉问答系统。本文首先提取属性和描述性句子作为图片高层语义的解释,然后推理模块通过利用这些解释而不是图片本身推理答案。这样的分解有两个好处:第一,属性和字幕能够反映出系统从图像中提取了那些信息,因此为预测的答案提供了解释;第二,当预测的答案是错误的时候,这些中间结果能够对错误原因进行诊断,帮助识别错误是源于图像理解还是后续的推理部分。本文通过实验证明,这样的分解系统取得了和基准模型相当的性能,同时具有可解释性以及用更好质量的属性和字幕改进整个系统的能力。
【图文】:

网络结构图,网络结构,高维,桂冠


在这种背景下,基于神经网络的深度学习技术开始发挥应有的威力,直接推动逡逑了人工智能的新一代革命。2012年,AlexKrizhevsky等人[2]发表了著名的卷积逡逑神经网络AlexNet,,其网络结构如图1.1。相比传统的CNN网络结果,它的网络逡逑层次更深,而且采用了很多新技术,包括使用ReLU函数作为激活函数,降低了逡逑Sigmoid类函数的计算量;利用dropout技术在训练期间选择性地剪掉某些神经逡逑元,避免模型过拟合;引入max-pooling技术;引入数据增强技术增加训练样本。逡逑AlexNet不仅比传统CNN的网络结构(例如LeNet)层数更深,也可以学习更复杂逡逑的图像高维特征。由于其更深的网络结构和诸多新技术的应用,AlexNet在2012逡逑年举办的大规模图形识别比赛(ImageNet邋Large邋Scale邋Visual邋Recognition邋Challenge逡逑2012)中以远超传统方法的成绩夺得桂冠。AlexNet不仅比传统的卷积神经网络逡逑(Convolutional邋Neural邋Networks)!^的网络结构更深,也可以基于数据和具体的任逡逑务来学习更复杂的图形高维表示。基于人工神经网络的模型在沉寂了将近10年逡逑后再次引起研究人员的重视。逡逑此外短短几年内,基于深度学习的研宄无论在网络结构设计还是新的应用逡逑上都获得了突破性进展。2014年,Szegedy等人大大增加了邋CNN的深度,提逡逑出了超过20层的CNN结构

多模态,视觉,图像,自动问答


署于现实场景中。随着人们在计算机视觉和自然语言处理领域都取得了很大的逡逑进展,最近几年,同时基于视觉和语言的多模态学习任务引起了越来越多研宄者逡逑的关注,如图像字幕生成,视觉叙事,自动视觉问答等。如图1.2,类似于婴儿逡逑学习说话的过程,机器对图像的理解正从用若干个单词来标注所看到的图像向逡逑学习生成完整的句子或者一段话过渡。不同于传统的图像标注任务,图像字幕生逡逑成和视觉叙事需要对同时对图像内容进行视觉理解和相应的文本进行自然语言逡逑理解,并学习两个信息源的语义对应关系。逡逑iiluili逦MHLgMi逦lllLigMi逡逑 ̄逦SSB邋 ̄逡逑人.运动球逦今天我和问学-?起打棒球*邋m逦问:人们在玩什么游戏?逡逑yU.操场逦AIIJ(l.W5^.r.iJPP7C逦糊友来观#比赛,P惧未穑喊羟蝈义隙寂说梅郑危危耗们蚺醯脑硕贝┦裁囱丈模孕簦垮义洗穑焐义贤枷翊艝茉翦问洛巫远鎬p逡逑图1.2基于视觉与语言的多模态任务进展趋势。随着对图像内容理解的深入,机器对图像逡逑的描述从个别单词到完整的句子再到故事情节,甚至能够回答相关的问题。逡逑受到自然语言处理领域中自动问答任务的启发,研宄人员提出自动视觉问逡逑答任务来测试机器对多模态信息的理解和推理能力。在基于文本的自动问答任逡逑务中
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41;TP18

【相似文献】

中国期刊全文数据库 前10条

1 魏维;游静;刘凤玉;许满武;;音频高层语义分析[J];中国图象图形学报;2007年01期

2 欧阳军林;夏利民;张伟伟;;基于高层语义及相关反馈的图像检索[J];计算机工程与应用;2006年25期

3 许源;薛向阳;;一种视频局部高层语义特征提取算法[J];计算机科学;2006年11期

4 吴楠;宋方敏;;一种基于图像高层语义信息的图像检索方法[J];中国图象图形学报;2006年12期

5 王崇骏,杨育彬,陈世福;基于高层语义的图像检索算法[J];软件学报;2004年10期

6 席彩丽;;基于内容的图像检索高层语义处理方法[J];图书情报工作;2009年09期

7 李天添;赵丹华;赵江洪;;基于高层语义视觉表征的意象版工具[J];包装工程;2018年04期

8 ;2014年《计算机研究与发展》专题(正刊)征文通知——“深度学习”[J];计算机研究与发展;2014年01期

9 顾广华;秦芳;;基于多层次特征表示的图像场景分类算法[J];高技术通讯;2019年03期

10 贾振超;赵耀;朱振峰;;应用对象语义进行图像检索的新方法[J];铁道学报;2007年04期

中国重要会议论文全文数据库 前6条

1 张杨;房斌;徐传运;;基于本体和描述逻辑的图像语义识别[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

2 姜志国;张立国;史骏;;基于内容的数字病理切片检索技术研究[A];第八届全国生物医学体视学学术会议、第十一届全军军事病理学学术会议、第七届全军定量病理学学术会议论文(摘要)汇编[C];2012年

3 杨震群;魏骁勇;夏芳;;基于上下文空间的概念融合技术[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

4 吴玲达;魏迎梅;谢毓湘;杨征;;MSFAS:一个媒体语义特征分析系统的设计与实现[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

5 赵海英;彭宏;徐丹;;交互式的基于内容的图像检索[A];’2004计算机应用技术交流会议论文集[C];2004年

6 曲云尧;施伯乐;;事务分层及其调度技术的研究[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

中国博士学位论文全文数据库 前7条

1 于东飞;基于注意力机制与高层语义的视觉问答研究[D];中国科学技术大学;2019年

2 潘滢炜;基于高层语义的跨模态应用研究[D];中国科学技术大学;2018年

3 万华林;图象检索中高层语义和低层可视特征的提取研究[D];中国科学院研究生院(计算技术研究所);2002年

4 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年

5 高赞;基于内容的视频分析关键技术[D];北京邮电大学;2011年

6 姚聪;自然图像中文字检测与识别研究[D];华中科技大学;2014年

7 韦星星;基于结构化信息的图像内容分析与理解[D];天津大学;2015年

中国硕士学位论文全文数据库 前10条

1 史建华;基于高层语义的场景分类[D];中国科学院大学(中国科学院西安光学精密机械研究所);2016年

2 王继宗;基于高层语义特征的图像检索关键技术研究[D];吉林大学;2013年

3 张毅;基于高层语义的图像检索研究[D];西安电子科技大学;2007年

4 莫浩澜;基于高层语义的自然图像检索方法研究[D];湘潭大学;2007年

5 陈琴;融合进高层语义特征的医学图像检索技术研究[D];宁波大学;2009年

6 王平;基于模糊领域本体的材料外观腐蚀底层特征与高层语义映射方法研究[D];重庆理工大学;2013年

7 刘继晴;基于多特征融合的视频高层语义概念检测[D];北京邮电大学;2011年

8 吕轶超;结合底层特征和高层语义的图像检索技术研究[D];重庆大学;2011年

9 安福定;基于高层语义的图像检索研究[D];西北农林科技大学;2011年

10 孙子晨;视频高层语义提取技术研究与应用[D];复旦大学;2009年



本文编号:2629958

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2629958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户62b38***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com