基于深度学习的图像文本描述自动生成方法研究

发布时间：2022-09-27 18:17

　　随着网络通信技术以及多媒体技术的飞速发展,人们获取知识的途径以及相互之间沟通交流的方式发生着翻天覆地的变化,越来越多的文本、图像、视频等多媒体信息不断涌入人们的视野。图像文本描述自动生成任务是一种融合图像和文本的多模态处理的关键技术,该任务结合了计算机视觉和自然语言处理两个关键领域,实现了从图像到自然语言的转换,它能够应用于基于文本内容的图像检索、网络图像分析等众多场景中。本文采用基于编码-解码的模型框架,通过学习数据集中的图像特征和文本表达方式,自动的为测试图片生成相应的文本描述。模型中涉及到两种深度神经网络,分别是卷积神经网络和循环神经网络,这两种网络近几年在机器学习领域有着广泛的应用。本文提出了基于文本牵引的注意力机制结构,将该结构分别应用于基于CNN-RNN和CNN-CNN的模型框架下,使得模型能够像人类一样思考,动态地为图像分配不同的注意力区域来生成相关的词语。本文工作和研究成果主要包括以下几个方面:（1）本文针对图像文本描述任务中,图像和文本之间底层特征的异构性问题,提出了一种寻找图像代表性的文本特征向量的方法。给定查询图像,在训练集中通过最近邻图像集的查找、“一致性语句”...

【文章页数】：77 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 基于模板的方法
        1.2.2 基于检索的方法
        1.2.3 基于编码-解码的方法
    1.3 论文主要工作与结构
        1.3.1 本文的主要工作
        1.3.2 本文的组织结构
第二章图像文本描述任务的基础知识
    2.1 卷积神经网络
        2.1.1 神经网络及后向传播(Back Propogation,BP)算法
        2.1.2 卷积神经网络的基本操作
        2.1.3 卷积神经网络中的BP算法
    2.2 循环神经网络
        2.2.1 循环神经网络模型及BP算法
        2.2.2 LSTM的模型介绍
        2.2.3 LSTM的 BP算法
第三章基于文本牵引的自适应注意力机制的CNN-RNN模型
    3.1 编码-解码框架
        3.1.1 编码部分
        3.1.2 解码部分
    3.2 视觉特征提取
        3.2.1 Res Net模型介绍
        3.2.2 图像局部和全局特征
    3.3 最近邻图像集
        3.3.1 VGG网络模型介绍
        3.3.2 候选特征的选择
    3.4 文本牵引的向量获取
        3.4.1 一致性语句选择
        3.4.2 文本向量的映射
    3.5 文本牵引的注意力机制模型构建
        3.5.1 视觉依赖门向量的构建
        3.5.2 CNN-RNN结构下的文本牵引的自适应注意力机制
    3.6 实验设计及结果分析
        3.6.1 数据集
        3.6.2 评价指标
        3.6.3 网络参数设置
        3.6.4 模型结果及分析
第四章基于文本牵引的注意力机制的CNN-CNN模型结构
    4.1 图像文本描述模型框架
        4.1.1 单词向量特征提取
        4.1.2 CNN-CNN结构下的文本牵引的注意力机制
        4.1.3 模型的预测模块
    4.2 实验设计与分析
        4.2.1 网络参数设置
        4.2.2 模型结果及分析
第五章总结与展望
    5.1 主要工作总结
    5.2 未来工作展望
致谢
参考文献
作者在学期间取得的学术成果

本文编号：3681374

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3681374.html

上一篇：多目标演化优化算法的决策空间多样性维护机制研究
下一篇：兼容ROS的嵌入式实时机器人通信系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|