基于自上而下注意力机制的视觉问答模型研究

发布时间:2023-05-07 07:07
  视觉问答是近年来人工智能领域兴起的热门研究方向之一,VQA的核心问题是如何构建图像与问题之间的关联关系。图像与问题之间存在着语义鸿沟,阻碍了图像与问题中语义信息的有机融合。解决语义鸿沟问题的一个基本思路,是同时对图像和问题进行处理,以找出两者之间的强关联部位。为此,本文针对图像和问题之间的有机融合与关联问题开展研究,并据此设计高性能的视觉问答模型。本文的主要工作如下:(1)视觉问答模型广泛采用了注意力机制来突出关键信息的作用,抑制无关信息的影响,但是现有模型多倾向于使用问题信息去关注和处理图像,而很少使用图像信息来关注和处理问题,使得对问题中关键信息的提炼失去根据,影响了视觉问答模型的整体性能。为此,本文提出了一个基于级联的自上而下注意力机制模型。该模型利用问题来引导图像注意力,以突出图像中的重要区域,同时也利用图像来引导问题注意力,以突出问题中的重点单词,这样既能有效地突出与问题相关的图像区域,也能有效地突出与图像相关的问题单词,使得图像和问题之间的关联更加紧密。该模型在两个公开的视觉问答数据集上进行了实验,实验结果表明,该模型可以有效提高视觉问答的整体性能。(2)目前视觉问答模型采...

【文章页数】:59 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
abstract
第一章 绪论
    1.1 课题研究背景与意义
    1.2 视觉问答模型的国内外研究现状
        1.2.1 联合嵌入模型
        1.2.2 注意力机制模型
        1.2.3 模块化组合模型
        1.2.4 知识库增强模型
    1.3 本文主要研究内容
    1.4 本文组织结构
第二章 视觉问答与基于深度学习的解决方案
    2.1 视觉问答任务描述
    2.2 视觉问答模型架构
        2.2.1 图像编码
        2.2.2 问题编码
        2.2.3 注意力机制
        2.2.4 特征融合
    2.3 卷积神经网络
        2.3.1 卷积神经网络基本结构
        2.3.2 卷积神经网络经典模型
    2.4 循环神经网络
        2.4.1 长短期记忆网络
        2.4.2 门控循环单元
    2.5 本章小结
第三章 基于级联自上而下注意力机制模型
    3.1 简介与相关工作
    3.2 模型介绍
        3.2.1 模型概述
        3.2.2 图像特征提取
        3.2.3 文本问题编码
        3.2.4 问题自上而下注意力机制
        3.2.5 图像自上而下注意力机制
        3.2.6 答案预测
    3.3 实验
        3.3.1 实验设置
        3.3.2 结果与分析
        3.3.3 对比实验
    3.4 本章小结
第四章 基于多层图像特征融合注意力机制模型
    4.1 简介与相关工作
    4.2 模型介绍
        4.2.1 模型概述
        4.2.2 输入编码
        4.2.3 自上而下注意力机制
        4.2.4 融合注意力机制
        4.2.5 输出分类
    4.3 实验
        4.3.1 实验设置
        4.3.2 结果与分析
        4.3.3 对比实验
    4.4 本章小结
第五章 总结与展望
    5.1 全文总结
    5.2 后续工作展望
参考文献
攻读硕士期间参与科研项目和公开发表的论文



本文编号:3810522

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3810522.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6b04d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com