基于多模态神经网络的图像描述方法研究
发布时间:2023-11-10 17:15
随着人工智能技术及其应用的不断发展,神经网络算法只需要通过大量的数据以及性能卓越的硬件设备,就可以使计算机模拟人类的行为,并且应用在生活的方方面面,使人类可以更加高效的完成工作、获得可观的经济效益,促进社会的进步。图像描述结合了“自然语言处理”和“计算机视觉”两个热门研究领域,旨在使计算机在分析输入图像的视觉信息后,输出关于图像内容的连贯流畅的自然语言描述句子。目前对于图像描述生成的研究取得了快速的发展,并且衍生出很多不同的方法。然而现有的图像描述方法普遍存在生成的描述句子联系上下文长期记忆不足、生成的描述语句与图像的相关性较差等问题。本文基于多模态神经网络(multimodal Recurrent Neural Network,m-RNN),通过分析m-RNN的结构,结合当前图像处理和自然语言处理的研究前沿,从图像特征提取部分和文本序列数据处理两方面入手,找出m-RNN对于一些图像生成描述的效果不佳的问题所在,进行了以下工作:(1)探究使用卷积神经网络(Convolutional Neural Network,CNN)分析提取图像特征的功能,深入理解Vgg-16网络的逻辑内涵,在构建...
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 基于生成的方法
1.2.2 基于检索的方法
1.2.3 基于编码-解码的方法
1.3 本文主要研究内容
1.4 本文组织结构
2 图像描述相关技术理论
2.1 语言模型
2.2 编码-解码框架
2.3 卷积神经网络
2.3.1 卷积神经网络简介
2.3.2 常用的卷积神经网络介绍
2.4 循环神经网络
2.5 注意力机制
2.6 本章小结
3 基于m-RNN的图像描述方法研究
3.1 m-RNN模型的介绍
3.2 m-RNN模型的改进方向
3.3 本章小结
4 改进的多模态神经网络图像描述方法
4.1 使用卷积注意力模块(CBAM)优化图像特征提取
4.2 使用门控循环单元(GRU)优化语言模型
4.3 实验数据集与数据预处理
4.3.1 实验数据集
4.3.2 数据预处理
4.4 实验和结果分析
4.4.1 实验环境
4.4.2 模型训练
4.4.3 评价方法
4.4.4 实验结果与分析
4.5 本章小结
5 总结与展望
5.1 本文工作总结
5.2 未来工作展望
致谢
参考文献
攻读学位期间的研究成果
本文编号:3861977
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 基于生成的方法
1.2.2 基于检索的方法
1.2.3 基于编码-解码的方法
1.3 本文主要研究内容
1.4 本文组织结构
2 图像描述相关技术理论
2.1 语言模型
2.2 编码-解码框架
2.3 卷积神经网络
2.3.1 卷积神经网络简介
2.3.2 常用的卷积神经网络介绍
2.4 循环神经网络
2.5 注意力机制
2.6 本章小结
3 基于m-RNN的图像描述方法研究
3.1 m-RNN模型的介绍
3.2 m-RNN模型的改进方向
3.3 本章小结
4 改进的多模态神经网络图像描述方法
4.1 使用卷积注意力模块(CBAM)优化图像特征提取
4.2 使用门控循环单元(GRU)优化语言模型
4.3 实验数据集与数据预处理
4.3.1 实验数据集
4.3.2 数据预处理
4.4 实验和结果分析
4.4.1 实验环境
4.4.2 模型训练
4.4.3 评价方法
4.4.4 实验结果与分析
4.5 本章小结
5 总结与展望
5.1 本文工作总结
5.2 未来工作展望
致谢
参考文献
攻读学位期间的研究成果
本文编号:3861977
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3861977.html