基于行为语义理解的多模态视觉问答方法

发布时间:2021-08-25 17:36
  人类感知世界是多模态的,如图像、声音、气味等。为了更高效地获取信息,人们希望计算机也能够理解与处理多模态数据。其中视觉问答是一个热门的多模态数据研究方向,它结合了视觉技术与自然语言处理技术,对输入的图片与问题给出相应答案,在安防、儿童教育等领域具有很好的应用前景。现有的多模态视觉问答方法应用场景过于广泛,没有根据不同的应用场景对图像数据做特定的语义信息理解。这些方法虽然能较好的区分不同场景类型的问题并给出相关的答案,但对于同一场景下的相关问题,准确率仍然不高。另一方面,现有方法对多模态数据的特征提取没有充分考虑视觉问答任务的特性,简单地在单模态数据上提取特征,特征表达能力不足,难以学习深层次语义信息。为解决现有多模态视觉问答方法的不足,本文提出了一种基于行为语义理解的多模态视觉问答方法。针对应用场景太宽泛问题,考虑到在现实应用场景下人们对图片的视觉问答往往是关于交互行为信息的,本文提出一种基于注意力机制的多分支行为语义信息抽取网络(ASI-Net),使模型更聚焦于学习交互行为信息。通过注意力机制进一步提取人、物体实例的周边信息,并融合人与物体实例对的空间信息检测图片中的交互行为,实现行... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于行为语义理解的多模态视觉问答方法


Faster-RCNN基本结构图

网络结构图,网络结构,图片,特征映射


图 2-3 VGG 网络结构VGG 网络结构图如图 2-3 所示,通过卷积层提取图片的特征,每一层卷积网络都在前一层提取信息的基础上提取更加抽象的特征,从图片到图片特征映射的可视化举例如图 2-4 所示:图 2-4 图像提取特征映射卷积特征映射图是将图片信息编码到更高维度的图片特征表示,同时保留了原始图片上各个物体的相对位置信息 如今,图像特征提取基础框架大都已

特征映射,图片,信息编码,图像提取


-16-图 2-4 图像提取特征映射卷积特征映射图是将图片信息编码到更高维度的图片特征表示,同时始图片上各个物体的相对位置信息 如今,图像特征提取基础框架大深度残差网络来替代 VGG 网络,深度残差网络通过残差块上的远跳其比 VGG 有更深的网络结构,同时采用了批归一化ξBNο让网络更练,深度残差网络ξResNetο中的残差块结构如图 2-5 所示:

【参考文献】:
期刊论文
[1]基于深度学习的开放领域对话系统研究综述[J]. 陈晨,朱晴晴,严睿,柳军飞.  计算机学报. 2019(07)
[2]基于神经网络的视觉问答技术研究综述[J]. 鲜光靖,黄永忠.  网络安全技术与应用. 2018(01)



本文编号:3362560

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3362560.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d842***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com