基于互助双向LSTM与递进解码机制的图像标题生成
发布时间:2021-02-01 12:38
图像标题生成是计算机视觉和自然语言处理交叉领域的研究热点,它要求算法能准确地识别图像内容并将图像内容表达为通顺的句子。本文旨在分析现有图像标题生成算法存在的问题并提出两点改进:互助双向长短期记忆网络与递进解码机制。受卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆(Long Short-Term Memory,LSTM)网络成功地被应用于图像识别和机器翻译的启发,主流图像标题生成算法使用CNN将原始图像编码为图像特征并使用LSTM将图像特征解码为句子。然而,现有算法从前向后逐个生成单词,未考虑一个词的后续词对句子生成的影响。由于句中单词具有上下文联系,因此现有算法有待被进一步改进以充分利用上下文。针对该问题,本文提出基于互助双向长短期记忆(Mutual-aid Bidirectional LSTM,MB-LSTM)网络的图像标题生成算法。MB-LSTM由前向LSTM、前向协助网络、后向LSTM和后向协助网络组成。在训练阶段,前向和后向LSTM将上文和下文分别编码为各自的隐藏状态,进而将各自的隐藏状态分别输入前向和后向协助网络以预测对方的隐藏状...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究意义
1.3 研究现状
1.4 本文工作与贡献
1.5 本文结构
2 基础知识与关键技术
2.1 多层感知机
2.2 卷积神经网络
2.3 循环神经网络
2.4 本章小结
3 基于互助双向LSTM模型的标题生成算法
3.1 Inception-V4编码器
3.1.1 网络主干
3.1.2 Inception与Reduction
3.2 互助双向LSTM解码器
3.2.1 LSTM解码器
3.2.2 带注意力机制的LSTM解码器
3.2.3 互助双向LSTM解码器
3.3 损失函数
3.4 实验结果与分析
3.4.1 MicrosoftCOCO数据集
3.4.2 常用的评测指标
3.4.3 实验设置与实现细节
3.4.4 预训练LSTM解码器
3.4.5 互助双向LSTM的作用
3.4.6 与其他算法的比较与分析
3.4.7 具体实例分析
3.5 本章小结
4 基于递进解码机制的图像标题生成算法
4.1 多模态注意力模块
4.2 最终图像标题的生成
4.3 实验结果与分析
4.3.1 预训练与微调
4.3.2 与其他算法的比较与分析
4.3.3 具体实例分析
4.3.4 注意力可视化分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
附录A MB-LSTM在其他数据集上的测试
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3012789
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究意义
1.3 研究现状
1.4 本文工作与贡献
1.5 本文结构
2 基础知识与关键技术
2.1 多层感知机
2.2 卷积神经网络
2.3 循环神经网络
2.4 本章小结
3 基于互助双向LSTM模型的标题生成算法
3.1 Inception-V4编码器
3.1.1 网络主干
3.1.2 Inception与Reduction
3.2 互助双向LSTM解码器
3.2.1 LSTM解码器
3.2.2 带注意力机制的LSTM解码器
3.2.3 互助双向LSTM解码器
3.3 损失函数
3.4 实验结果与分析
3.4.1 MicrosoftCOCO数据集
3.4.2 常用的评测指标
3.4.3 实验设置与实现细节
3.4.4 预训练LSTM解码器
3.4.5 互助双向LSTM的作用
3.4.6 与其他算法的比较与分析
3.4.7 具体实例分析
3.5 本章小结
4 基于递进解码机制的图像标题生成算法
4.1 多模态注意力模块
4.2 最终图像标题的生成
4.3 实验结果与分析
4.3.1 预训练与微调
4.3.2 与其他算法的比较与分析
4.3.3 具体实例分析
4.3.4 注意力可视化分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
附录A MB-LSTM在其他数据集上的测试
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3012789
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3012789.html