基于深度卷积网络与区域关注机制的视觉问答系统

发布时间:2021-07-12 22:22
  视觉和语言是人类智慧理解现实世界的两个核心部分,也是实现人工智能的基本组成部分,并且在各自的领域中已经开展了大量的研究。最近,深度学习的巨大进步打破了视觉和语言之间的界限,跨模态的研究引起了研究人员广泛的关注,例如视觉问答、图片描述、图片-文字匹配等。视觉问答的基本任务是给定一张图片或者一段视频,以及相对应的自然语言问题,系统能够根据问题分析图片或者视频的内容推理出正确的答案。视觉问答能够被用来提升人机交互的能力来检索视觉内容,有很多潜在的应用。最主要的应用是帮助视觉障碍者能通过该系统来获得网络或者现实图片中的信息。并且,视觉问答也是一个重要的基本研究问题。因为一个好的视觉问答系统能够解决很多计算机视觉问题,可以被认为是对于图片理解中图灵测试的重要组成部分。视觉问答不仅需要对图片有很强地理解能力,而且需要复杂的自然语言处理技术用于处理问题。作为一个新兴的研究方向,视觉问答系统所面临的挑战是巨大的,需要我们去学习与挖掘。视觉问答系统有很多种分类的方法。按照答案类型分,可分为开放式(openended)的视觉问答和多项选择(Multiple-choice)的视觉问答。按输入的视觉类型分,可... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 视觉问答方法的国内外研究历史与现状
    1.3 本文的主要贡献与创新
    1.4 本论文的结构安排
第二章 基于立体视觉注意的图片问答
    2.1 深度学习基础知识
        2.1.1 卷积神经网络
        2.1.2 循环神经网络
        2.1.3 物体检测网络
    2.2 立体视觉注意力机制
        2.2.1 输入特征表示
        2.2.2 通道注意
        2.2.3 基于对象区域的空间注意
        2.2.4 答案预测
        2.2.5 立体视觉注意的另一种形式
    2.3 实验
        2.3.1 数据集
        2.3.2 评价标准
        2.3.3 实现细节
        2.3.4 框架探索和比较
        2.3.5 在VQA数据集上和目前最好的方法比较
        2.3.6 在COCO-QA数据集上和目前最好的方法比较
        2.3.7 在Visual7W数据集上和目前最好的方法比较
    2.4 本章小结
第三章 基于多任务学习与自适应注意的多选图片问答
    3.1 特征提取
        3.1.1 提取图像对象区域特征
        3.1.2 编码问题或者选项特征
    3.2 自适应注意机制
        3.2.1 自适应QO注意-内容感知文本特征C
        3.2.2 自适应QOI注意-内容和视觉感知特征T
        3.2.3 自适应QI注意-问题感知视觉特征B
        3.2.4 用于MC问题的答案生成模块
    3.3 多任务学习
    3.4 实验
        3.4.1 数据集
        3.4.2 评价标准
        3.4.3 实验设置
        3.4.4 框架探索和比较
        3.4.5 在VQA数据集上和目前最好的方法进行比较
        3.4.6 在Visual7W数据集上和目前最好的方法进行比较
    3.5 本章小结
第四章 基于结构化双流注意力的视频问答
    4.1 结构化分割模块
        4.1.1 视频特征提取
        4.1.2 结构化分割
    4.2 文本编码
        4.2.1 问题编码
        4.2.2 多项选择编码
    4.3 结构化的双流注意模块
        4.3.1 第一流:视觉注意
        4.3.2 第二流:文本注意
        4.3.3 结构化双流融合
    4.4 答案编码模块
        4.4.1 多项选择
        4.4.2 开放式计数
        4.4.3 开放式词
    4.5 实验
        4.5.1 数据集和评价设置
        4.5.2 实验细节
        4.5.3 框架探索和比较
        4.5.4 定性结果分析
        4.5.5 在TGIF-QA数据集上和目前最好的方法进行比较
    4.6 本章小结
第五章 全文总结与展望
    5.1 全文总结
    5.2 后续工作展望
致谢
参考文献
攻硕期间取得的研究成果



本文编号:3280769

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3280769.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8aaca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com