基于图像的文本自动生成关键技术研究
发布时间:2022-10-08 19:08
近年来,人工智能迅猛发展,计算机视觉与自然语言处理的交叉领域的研究逐渐吸引科研工作者的兴趣。大多数现有工作聚焦图像字幕任务,旨在根据单张图像生成单个句子描述。然而,本文将输入和输出的维度进行扩展,基于图像序列来生成段落描述,简称视觉叙事任务。相比图像字幕任务,视觉叙事对图文交叉领域提出更高挑战,它不仅要求对图像序列中的每张图片进行理解以及图片之间的上下文关系,同时要求生成语义连贯的自然语言段落。首先,本文对基于深度学习的视觉叙事算法进行研究。针对当下视觉叙事任务在图像流建模及文本生成方面的不足之处,构造首个该任务的中文数据集,并提出一种基于多模态空间映射的检索式模型架构RST-Att。一方面,该模型搭建双向长短期记忆网络,引入注意力机制,提高不同场景下的图像流的建模能力;另一方面,模型融合语言学中的修辞分析理论特征来改善生成文本的连贯性问题。在实验部分,本文采用了中文和英文两个数据集,结果表明RST-Att相比基线模型取得了更好的表现。进一步,基于相同的任务,不同于检索式方法,本文进一步探索生成式方法并提出一种对抗性神经网络学习模型AAL。AAL在生成模型的基础上,构造奖励模型代替最大...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 论文背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 论文组织结构
第二章 相关任务及研究综述
2.1 图文生成任务概况
2.2 图文生成算法技术路线
2.2.1 基于模板的图像描述
2.2.2 检索式图像描述
2.2.3 生成式图像描述
第三章 基于多模态空间的检索式视觉叙事算法
3.1 问题描述
3.2 算法基本思想
3.3 基于卷积神经网络的图像表征
3.4 基于双向LSTM的文本序列建模
3.4.1 注意力机制
3.4.2 修辞结构理论融合
3.5 模型训练
3.6 实验及结果分析
3.6.1 数据集
3.6.2 量化结果及分析
3.7 本章小结
第四章 基于对抗学习的生成式视觉叙事算法
4.1 问题描述
4.2 模型概述
4.3 意群分割
4.4 模块详情
4.4.1 生成模型
4.4.2 奖励模型
4.5 实验分析
4.5.1 数据集
4.5.2 实验设置
4.5.3 结果与分析
4.6 本章小结
第五章 游记生成系统的设计与实现
5.1 系统架构设计
5.2 系统开发环境
5.3 数据构建模块
5.3.1 数据集说明
5.3.2 数据获取
5.3.3 数据预处理
5.4 游记生成模块
5.5 后台管理与前端展示模块
5.6 游记生成页面展示
5.7 本章小结
第六章 总结与展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3688262
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 论文背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 论文组织结构
第二章 相关任务及研究综述
2.1 图文生成任务概况
2.2 图文生成算法技术路线
2.2.1 基于模板的图像描述
2.2.2 检索式图像描述
2.2.3 生成式图像描述
第三章 基于多模态空间的检索式视觉叙事算法
3.1 问题描述
3.2 算法基本思想
3.3 基于卷积神经网络的图像表征
3.4 基于双向LSTM的文本序列建模
3.4.1 注意力机制
3.4.2 修辞结构理论融合
3.5 模型训练
3.6 实验及结果分析
3.6.1 数据集
3.6.2 量化结果及分析
3.7 本章小结
第四章 基于对抗学习的生成式视觉叙事算法
4.1 问题描述
4.2 模型概述
4.3 意群分割
4.4 模块详情
4.4.1 生成模型
4.4.2 奖励模型
4.5 实验分析
4.5.1 数据集
4.5.2 实验设置
4.5.3 结果与分析
4.6 本章小结
第五章 游记生成系统的设计与实现
5.1 系统架构设计
5.2 系统开发环境
5.3 数据构建模块
5.3.1 数据集说明
5.3.2 数据获取
5.3.3 数据预处理
5.4 游记生成模块
5.5 后台管理与前端展示模块
5.6 游记生成页面展示
5.7 本章小结
第六章 总结与展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3688262
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3688262.html