基于预训练的跨模态统一模型研究
发布时间:2021-04-26 12:35
世界是多模态的——信息往往同时存在于语言、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然与真实世界有着明显不同。为构建真正理解人类世界的人工智能,它需要有对多模态数据识别和响应的能力。近年来自然语言处理和计算机视觉两大领域不断碰撞和融合,衍生出很多跨模态研究课题,如图片检索和图片问答等,但是由于这两个领域中的基础模型大都针对纯NLP或CV任务单独设计和训练(例如NLP中针对语言模型设计的BERT和CV中针对图片分类设计的ResNet),这些模型无法很好地刻画语言和视觉内容之间的关联。从下游任务对应的标注数据中学习这类关联是解决方案之一,但由于标注开销大,数据量较少,该方案依然缺点明显。本文中提及的跨模态仅设计图像和文本两种模态之间的交互任务。本文设计一种新的结构——Unicoder-VL,基于自注意力机制学习语言与图像信息间的协同表示。在此基础上,利用大规模的图像文本匹配对数据,设计基于文本的掩码语言模型(MLM)、基于图像区域的掩码类别预测(MOC)、图像文本匹配(VL...
【文章来源】:北京大学北京市 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 课题背景及研究意义
1.2 本文主要研究内容和组织结构
1.3 本文的主要贡献
第二章 相关研究
2.1 跨模态任务相关研究进展
2.1.1 图像-文本检索相关研究进展
2.1.2 图像问答任务相关研究进展
2.2 预训练任务相关研究进展
2.2.1 计算机视觉领域预训练的相关研究进展
2.2.2 自然语言处理领域预训练的相关研究进展
2.2.3 图像-文本跨模态预训练的相关研究进展
2.3 本章小结
第三章 基于自注意力机制的Unicoder-VL的设计与验证
3.1 自注意力机制与Transformer模型
3.1.1 注意力机制
3.1.2 Transformer编码器
3.1.3 BERT
3.2 Unicoder-VL模型设计
3.2.1 图像特征编码模块——Image Encoding
3.2.2 文本特征编码模块——Word Encoding
3.2.3 位置编码模块——Position Encoding
3.2.4 模态编码模块——Segment Encoding
3.2.5 图像-文本联合表示——Joint Encoding
3.3 Unicoder-VL在图像-文本检索任务上的表现
3.3.1 图像-文本检索任务定义
3.3.2 图像-文本检索任务评价指标
3.3.3 图像-文本检索任务数据集
3.3.4 训练目标
3.3.5 实验设置
3.3.6 实验结果
3.4 Unicoder-VL在图像问答任务上的表现
3.4.1 图像问答数据集
3.4.2 图像问答任务评价
3.4.3 图像问答训练目标
3.4.4 实验设置
3.4.5 实验结果
3.5 本章小结
第四章 基于预训练提升的Unicoder-VL的设计与验证
4.1 迁移学习与预训练
4.1.1 BERT的预训练机制
4.1.2 Unicoder:跨语言预训练模型
4.2 Unicoder-VL的预训练算法设计
4.2.1 预训练任务设计
4.2.2 预训练数据处理
4.2.3 预训练实验设置
4.3 预训练的Unicoder-VL在图像-文本检索任务上的实验结果
4.4 预训练的Unicoder-VL在图像问答任务上的表现
4.5 消融实验
4.5.1 预训练数据集对实验结果的影响
4.5.2 图像特征框数量对实验结果的影响
4.5.3 微调时的目标函数对实验结果的影响
4.5.4 Unicoder-VL模型深度对实验结果的影响
4.6 本章小结
第五章 结论与展望
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3161422
【文章来源】:北京大学北京市 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 课题背景及研究意义
1.2 本文主要研究内容和组织结构
1.3 本文的主要贡献
第二章 相关研究
2.1 跨模态任务相关研究进展
2.1.1 图像-文本检索相关研究进展
2.1.2 图像问答任务相关研究进展
2.2 预训练任务相关研究进展
2.2.1 计算机视觉领域预训练的相关研究进展
2.2.2 自然语言处理领域预训练的相关研究进展
2.2.3 图像-文本跨模态预训练的相关研究进展
2.3 本章小结
第三章 基于自注意力机制的Unicoder-VL的设计与验证
3.1 自注意力机制与Transformer模型
3.1.1 注意力机制
3.1.2 Transformer编码器
3.1.3 BERT
3.2 Unicoder-VL模型设计
3.2.1 图像特征编码模块——Image Encoding
3.2.2 文本特征编码模块——Word Encoding
3.2.3 位置编码模块——Position Encoding
3.2.4 模态编码模块——Segment Encoding
3.2.5 图像-文本联合表示——Joint Encoding
3.3 Unicoder-VL在图像-文本检索任务上的表现
3.3.1 图像-文本检索任务定义
3.3.2 图像-文本检索任务评价指标
3.3.3 图像-文本检索任务数据集
3.3.4 训练目标
3.3.5 实验设置
3.3.6 实验结果
3.4 Unicoder-VL在图像问答任务上的表现
3.4.1 图像问答数据集
3.4.2 图像问答任务评价
3.4.3 图像问答训练目标
3.4.4 实验设置
3.4.5 实验结果
3.5 本章小结
第四章 基于预训练提升的Unicoder-VL的设计与验证
4.1 迁移学习与预训练
4.1.1 BERT的预训练机制
4.1.2 Unicoder:跨语言预训练模型
4.2 Unicoder-VL的预训练算法设计
4.2.1 预训练任务设计
4.2.2 预训练数据处理
4.2.3 预训练实验设置
4.3 预训练的Unicoder-VL在图像-文本检索任务上的实验结果
4.4 预训练的Unicoder-VL在图像问答任务上的表现
4.5 消融实验
4.5.1 预训练数据集对实验结果的影响
4.5.2 图像特征框数量对实验结果的影响
4.5.3 微调时的目标函数对实验结果的影响
4.5.4 Unicoder-VL模型深度对实验结果的影响
4.6 本章小结
第五章 结论与展望
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3161422
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3161422.html