视觉语义表示模型在视频问答中的研究与应用
发布时间:2021-02-18 16:04
在人工智能领域,建立视觉理解和人机交互之间的联系是一项具有挑战的任务。目前深度学习技术广泛应用在计算机视觉和自然语言处理等领域,虽然基于深度学习的视频自动描述生成任务在建立视觉内容与自然语言连接上取得一定进展,但它通常描述视觉内容的粗略语义信息,缺少对不同视觉线索之间的建模以及推理的能力。而视频问答需要模型能够全面理解出现的视觉场景,这就要求模型能够对不同层次的视觉、文本内容甚至是外部知识进行理解并找到正确的答案。人脑在应对和视觉问答类似的认知任务时,不仅需要对当前接收到的信息进行处理,还需要根据接收到的信息对大脑中存储的知识进行检索和推理。因此记忆和外部知识在认知理解的过程中有很重要的作用。基于记忆和外部知识对认知理解的影响,本文提出两方面的探索,首先层叠记忆网络(LMN)通过分级的表示过程使视频特征中包含更多的语义信息,其次引入了一个名为PlotGraphs的新数据集作为外部知识,同时提出的图表示网络(PGRN)能够结合LMN处理视频问答任务。具体来说,LMN通过静态单词记忆和动态字幕记忆分别存储单词和视频字幕信息,然后通过分级地表示过程使帧级和片段级的视频表示中包含更多的语义信息...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:48 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 视频问答的研究背景和意义
1.2 国内外研究现状
1.2.1 主要研究方法
1.2.2 主要面临的挑战
1.3 本文的研究内容
1.4 本文的组织结构
第2章 本文相关的研究工作
2.1 视觉问答数据集
2.2 基于图像的问答任务研究
2.2.1 基于联合嵌入的方法
2.2.2 基于注意力机制的方法
2.2.3 基于外部知识库的方法
2.2.4 基于图的方法
2.3 基于视频的问答任务研究
2.4 其他类型的问答任务研究
第3章 基于层叠记忆网络的视频问答方法研究
3.1 算法框架描述
3.2 算法具体实现
3.2.1 静态单词记忆模块
3.2.2 动态字幕记忆模块
3.3 扩展框架
3.3.1 静态单词记忆中的多跳
3.3.2 动态字幕记忆的更新机制
3.3.3 问题引导模型
3.4 实验结果分析
3.4.1 实验数据及设置
3.4.2 实验结果分析
3.4.3 实验结果示例
3.4.4 本章小结
第4章 基于图表示网络的视频问答方法研究
4.1 PlotGraphs数据集的构建
4.1.1 数据采集步骤
4.1.2 图的结构
4.1.3 数据集统计信息
4.2 算法框架描述
4.3 算法具体实现
4.3.1 结点的语义表示
4.3.2 结点之间关系的表示
4.4 实验结果分析
4.4.1 实验数据及设置
4.4.2 实验结果分析
4.4.3 实验结果示例
4.4.4 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
发表论文和参加科研情况说明
致谢
本文编号:3039780
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:48 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 视频问答的研究背景和意义
1.2 国内外研究现状
1.2.1 主要研究方法
1.2.2 主要面临的挑战
1.3 本文的研究内容
1.4 本文的组织结构
第2章 本文相关的研究工作
2.1 视觉问答数据集
2.2 基于图像的问答任务研究
2.2.1 基于联合嵌入的方法
2.2.2 基于注意力机制的方法
2.2.3 基于外部知识库的方法
2.2.4 基于图的方法
2.3 基于视频的问答任务研究
2.4 其他类型的问答任务研究
第3章 基于层叠记忆网络的视频问答方法研究
3.1 算法框架描述
3.2 算法具体实现
3.2.1 静态单词记忆模块
3.2.2 动态字幕记忆模块
3.3 扩展框架
3.3.1 静态单词记忆中的多跳
3.3.2 动态字幕记忆的更新机制
3.3.3 问题引导模型
3.4 实验结果分析
3.4.1 实验数据及设置
3.4.2 实验结果分析
3.4.3 实验结果示例
3.4.4 本章小结
第4章 基于图表示网络的视频问答方法研究
4.1 PlotGraphs数据集的构建
4.1.1 数据采集步骤
4.1.2 图的结构
4.1.3 数据集统计信息
4.2 算法框架描述
4.3 算法具体实现
4.3.1 结点的语义表示
4.3.2 结点之间关系的表示
4.4 实验结果分析
4.4.1 实验数据及设置
4.4.2 实验结果分析
4.4.3 实验结果示例
4.4.4 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
发表论文和参加科研情况说明
致谢
本文编号:3039780
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3039780.html