基于注意力机制与高层语义的视觉问答研究
【图文】:
在这种背景下,基于神经网络的深度学习技术开始发挥应有的威力,直接推动逡逑了人工智能的新一代革命。2012年,AlexKrizhevsky等人[2]发表了著名的卷积逡逑神经网络AlexNet,,其网络结构如图1.1。相比传统的CNN网络结果,它的网络逡逑层次更深,而且采用了很多新技术,包括使用ReLU函数作为激活函数,降低了逡逑Sigmoid类函数的计算量;利用dropout技术在训练期间选择性地剪掉某些神经逡逑元,避免模型过拟合;引入max-pooling技术;引入数据增强技术增加训练样本。逡逑AlexNet不仅比传统CNN的网络结构(例如LeNet)层数更深,也可以学习更复杂逡逑的图像高维特征。由于其更深的网络结构和诸多新技术的应用,AlexNet在2012逡逑年举办的大规模图形识别比赛(ImageNet邋Large邋Scale邋Visual邋Recognition邋Challenge逡逑2012)中以远超传统方法的成绩夺得桂冠。AlexNet不仅比传统的卷积神经网络逡逑(Convolutional邋Neural邋Networks)!^的网络结构更深,也可以基于数据和具体的任逡逑务来学习更复杂的图形高维表示。基于人工神经网络的模型在沉寂了将近10年逡逑后再次引起研究人员的重视。逡逑此外短短几年内,基于深度学习的研宄无论在网络结构设计还是新的应用逡逑上都获得了突破性进展。2014年,Szegedy等人大大增加了邋CNN的深度,提逡逑出了超过20层的CNN结构
署于现实场景中。随着人们在计算机视觉和自然语言处理领域都取得了很大的逡逑进展,最近几年,同时基于视觉和语言的多模态学习任务引起了越来越多研宄者逡逑的关注,如图像字幕生成,视觉叙事,自动视觉问答等。如图1.2,类似于婴儿逡逑学习说话的过程,机器对图像的理解正从用若干个单词来标注所看到的图像向逡逑学习生成完整的句子或者一段话过渡。不同于传统的图像标注任务,图像字幕生逡逑成和视觉叙事需要对同时对图像内容进行视觉理解和相应的文本进行自然语言逡逑理解,并学习两个信息源的语义对应关系。逡逑iiluili逦MHLgMi逦lllLigMi逡逑 ̄逦SSB邋 ̄逡逑人.运动球逦今天我和问学-?起打棒球*邋m逦问:人们在玩什么游戏?逡逑yU.操场逦AIIJ(l.W5^.r.iJPP7C逦糊友来观#比赛,P惧未穑喊羟蝈义隙寂说梅郑危危耗们蚺醯脑硕贝┦裁囱丈模孕簦垮义洗穑焐义贤枷翊艝茉翦问洛巫远鎬p逡逑图1.2基于视觉与语言的多模态任务进展趋势。随着对图像内容理解的深入,机器对图像逡逑的描述从个别单词到完整的句子再到故事情节,甚至能够回答相关的问题。逡逑受到自然语言处理领域中自动问答任务的启发,研宄人员提出自动视觉问逡逑答任务来测试机器对多模态信息的理解和推理能力。在基于文本的自动问答任逡逑务中
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41;TP18
【相似文献】
中国期刊全文数据库 前10条
1 魏维;游静;刘凤玉;许满武;;音频高层语义分析[J];中国图象图形学报;2007年01期
2 欧阳军林;夏利民;张伟伟;;基于高层语义及相关反馈的图像检索[J];计算机工程与应用;2006年25期
3 许源;薛向阳;;一种视频局部高层语义特征提取算法[J];计算机科学;2006年11期
4 吴楠;宋方敏;;一种基于图像高层语义信息的图像检索方法[J];中国图象图形学报;2006年12期
5 王崇骏,杨育彬,陈世福;基于高层语义的图像检索算法[J];软件学报;2004年10期
6 席彩丽;;基于内容的图像检索高层语义处理方法[J];图书情报工作;2009年09期
7 李天添;赵丹华;赵江洪;;基于高层语义视觉表征的意象版工具[J];包装工程;2018年04期
8 ;2014年《计算机研究与发展》专题(正刊)征文通知——“深度学习”[J];计算机研究与发展;2014年01期
9 顾广华;秦芳;;基于多层次特征表示的图像场景分类算法[J];高技术通讯;2019年03期
10 贾振超;赵耀;朱振峰;;应用对象语义进行图像检索的新方法[J];铁道学报;2007年04期
中国重要会议论文全文数据库 前6条
1 张杨;房斌;徐传运;;基于本体和描述逻辑的图像语义识别[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
2 姜志国;张立国;史骏;;基于内容的数字病理切片检索技术研究[A];第八届全国生物医学体视学学术会议、第十一届全军军事病理学学术会议、第七届全军定量病理学学术会议论文(摘要)汇编[C];2012年
3 杨震群;魏骁勇;夏芳;;基于上下文空间的概念融合技术[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 吴玲达;魏迎梅;谢毓湘;杨征;;MSFAS:一个媒体语义特征分析系统的设计与实现[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
5 赵海英;彭宏;徐丹;;交互式的基于内容的图像检索[A];’2004计算机应用技术交流会议论文集[C];2004年
6 曲云尧;施伯乐;;事务分层及其调度技术的研究[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
中国博士学位论文全文数据库 前7条
1 于东飞;基于注意力机制与高层语义的视觉问答研究[D];中国科学技术大学;2019年
2 潘滢炜;基于高层语义的跨模态应用研究[D];中国科学技术大学;2018年
3 万华林;图象检索中高层语义和低层可视特征的提取研究[D];中国科学院研究生院(计算技术研究所);2002年
4 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年
5 高赞;基于内容的视频分析关键技术[D];北京邮电大学;2011年
6 姚聪;自然图像中文字检测与识别研究[D];华中科技大学;2014年
7 韦星星;基于结构化信息的图像内容分析与理解[D];天津大学;2015年
中国硕士学位论文全文数据库 前10条
1 史建华;基于高层语义的场景分类[D];中国科学院大学(中国科学院西安光学精密机械研究所);2016年
2 王继宗;基于高层语义特征的图像检索关键技术研究[D];吉林大学;2013年
3 张毅;基于高层语义的图像检索研究[D];西安电子科技大学;2007年
4 莫浩澜;基于高层语义的自然图像检索方法研究[D];湘潭大学;2007年
5 陈琴;融合进高层语义特征的医学图像检索技术研究[D];宁波大学;2009年
6 王平;基于模糊领域本体的材料外观腐蚀底层特征与高层语义映射方法研究[D];重庆理工大学;2013年
7 刘继晴;基于多特征融合的视频高层语义概念检测[D];北京邮电大学;2011年
8 吕轶超;结合底层特征和高层语义的图像检索技术研究[D];重庆大学;2011年
9 安福定;基于高层语义的图像检索研究[D];西北农林科技大学;2011年
10 孙子晨;视频高层语义提取技术研究与应用[D];复旦大学;2009年
本文编号:2629958
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2629958.html