基于注意力机制的可视化自动问答算法研究
发布时间:2023-02-19 20:23
教会计算机学会逻辑推理是人工智能的终极目标,可视化自动问答(Visual Question Answering,VQA)是其中一个重要研究领域,它综合了计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)两大研究方向,旨在解决不同模态信息之间的语义鸿沟。其任务被描述为:对于输入任意图像I和围绕图像I提出的自然语言问题Q,通过训练好的深度学习模型之后,计算机能够输出正确的自然语言答案A。典型的可视化自动问答算法可划分为三个部分:即图像编解码模块、问题编解码模块和多模态特征聚合的答案输出模块。本文经过对相关理论和技术的探索研究,提出一种基于注意力机制的可视化自动问答算法。该算法基于Pytorch框架,根据模块化的思想,一方面在利用VGG16提取图像空间向量的基础上,叠化软注意力机制从而更高效、准确地获取图像空间特征向量;另一方面利用LSTM编码文字空间向量,最大程度保留语义信息;最后通过基于块的聚合方法进行多模态空间向量融合,将答案输出化归为分类问题。为验证算法有效性和通用性,本文从不同模型、不同数据集、不同场景...
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
第一章 绪论
1.1 课题背景及意义
1.2 课题研究现状
1.2.1 面向单模态信息的自动问答算法研究
1.2.2 面向多模态信息的自动问答算法研究
1.3 课题研究内容与目标
1.4 论文结构
第二章 可视化自动问答相关技术
2.1 图像特征提取方法
2.2 问题编码方法
2.3 注意力机制原理
2.4 多模态特征聚合方法
2.5 本章小结
第三章 基于注意力机制的可视化自动问答算法
3.1 深度学习框架
3.2 数据预处理
3.2.1 图像预处理
3.2.2 问题预处理
3.3 模型设计
3.2.1 基于软性注意力机制的叠化
3.2.2 基于BLOCK的多模态模态聚合
3.4 模型优化
3.5 本章小结
第四章 实验结果
4.1 VQA数据集
4.2 实验评价指标
4.3 实验环境参数
4.4 实验结果分析
4.4.1 不同模型的结果分析
4.4.2 不同问题的结果分析
4.4.3 不同语言的结果分析
4.4.4 不同场景的结果分析
4.4.5 不同数据集的结果分析
4.5 实验结果可视化
4.6 本章小结
第五章 总结展望
5.1 总结
5.2 技术展望
5.3 应用展望
参考文献
攻读硕士学位期间研究成果
本文编号:3746897
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
第一章 绪论
1.1 课题背景及意义
1.2 课题研究现状
1.2.1 面向单模态信息的自动问答算法研究
1.2.2 面向多模态信息的自动问答算法研究
1.3 课题研究内容与目标
1.4 论文结构
第二章 可视化自动问答相关技术
2.1 图像特征提取方法
2.2 问题编码方法
2.3 注意力机制原理
2.4 多模态特征聚合方法
2.5 本章小结
第三章 基于注意力机制的可视化自动问答算法
3.1 深度学习框架
3.2 数据预处理
3.2.1 图像预处理
3.2.2 问题预处理
3.3 模型设计
3.2.1 基于软性注意力机制的叠化
3.2.2 基于BLOCK的多模态模态聚合
3.4 模型优化
3.5 本章小结
第四章 实验结果
4.1 VQA数据集
4.2 实验评价指标
4.3 实验环境参数
4.4 实验结果分析
4.4.1 不同模型的结果分析
4.4.2 不同问题的结果分析
4.4.3 不同语言的结果分析
4.4.4 不同场景的结果分析
4.4.5 不同数据集的结果分析
4.5 实验结果可视化
4.6 本章小结
第五章 总结展望
5.1 总结
5.2 技术展望
5.3 应用展望
参考文献
攻读硕士学位期间研究成果
本文编号:3746897
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3746897.html
最近更新
教材专著