基于双注意力机制的图像描述生成方法研究

发布时间:2021-04-09 18:34
  作为计算机视觉和自然语言处理的交叉领域,图像描述生成近年来一直是一个活跃的研究课题,它的研究有助于多模态社交媒体从非结构化图像数据向结构化文本数据的翻译。传统的研究工作提出了基于模板、基于检索、基于编码-解码的图像描述方法。在这些方法中,基于编码-解码框架的方法广泛应用于图像描述生成,其中,编码器采用深度卷积神经网络(Convolutional Neural Network,CNN)提取图像特征,解码器采用循环神经网络(Recurrent Neural Network,RNN)生成图像描述。神经图像描述(Neural Image Caption,NIC)模型在生成图像描述方面取得了良好的效果,但仍存在一些有待解决的问题。为了解决生成的句子描述中图像信息缺乏和偏离图像核心内容的问题,本文提出的模型使用视觉注意力机制加强对图像细节内容的理解,采取文本注意力机制增强信息的完整性,并提出视觉注意力和文本注意力相结合的双注意力机制指导图像描述生成。为了解决生成的句子偏离图像核心内容的问题,本文在NIC模型基础上,编码端使用Inception_v4网络提取图像特征,解码端引入视觉注意力机制添加到长... 

【文章来源】:武汉科技大学湖北省

【文章页数】:54 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要内容与创新点
    1.4 论文组织
第2章 数据预处理及相关知识
    2.1 图像特征处理
        2.1.1 CNN
        2.1.2 图像特征
    2.2 文本特征处理
        2.2.1 RNN
        2.2.2 基于FCN方法提取图像标签
        2.2.3 基于主题模型提取图像标签
        2.2.4 中文分词及词向量
    2.3 本章小结
第3章 基于双注意力机制的图像描述生成模型
    3.1 基于NICN模型的图像描述生成框架
        3.1.1 NICN模型
        3.1.2 基于NICN模型的图像描述生成
    3.2 基于视觉注意力机制的图像描述生成框架
        3.2.1 视觉注意力机制
        3.2.2 基于视觉注意力机制的图像描述生成
    3.3 基于文本注意力机制的图像描述生成框架
        3.3.1 文本注意力机制
        3.3.2 基于文本注意力机制的图像描述生成
    3.4 基于双注意力机制的图像描述生成框架
        3.4.1 NICNDA模型
        3.4.2 形式化
        3.4.3 基于双注意力机制的LSTM
        3.4.4 基于FCN和双注意力机制的图像描述生成
    3.5 实验结果与分析
        3.5.1 AIC-ICC数据集
        3.5.2 实验评测指标
        3.5.3 模型参数
        3.5.4 实验结果分析
    3.6 本章小结
第4章 基于双注意力机制结合方式的图像描述生成模型
    4.1 基于双层LSTM和双注意力机制的结合方式
    4.2 基于FCN、双层LSTM和双注意力机制的图像描述生成框架
        4.2.1 NICNVA2TA2 模型
        4.2.2 基于NICNVA2TA2 模型的图像描述生成
    4.3 基于NMF主题模型、双层LSTM和双注意力机制的图像描述生成框架
        4.3.1 NICNVATP模型
        4.3.2 基于NICNVATP模型的图像描述生成
    4.4 实验结果与分析
        4.4.1 基于FCN和双注意力机制的模型实验分析
        4.4.2 基于NMF主题模型和双注意力机制的模型实验分析
    4.5 本章小结
第5章 结论与展望
    5.1 结论
    5.2 展望
致谢
参考文献
附录1 攻读学位期间的研究成果


【参考文献】:
期刊论文
[1]基于枢轴语言的图像描述生成研究[J]. 张凯,李军辉,周国栋.  中文信息学报. 2019(03)
[2]基于深度学习的图像语义分割方法综述[J]. 田萱,王亮,丁琪.  软件学报. 2019(02)
[3]图像的文本描述方法研究综述[J]. 马龙龙,韩先培,孙乐.  中文信息学报. 2018(04)
[4]图像语义相似性网络的文本描述方法[J]. 刘畅,周向东,施伯乐.  计算机应用与软件. 2018(01)
[5]LSTM逐层多目标优化及多层概率融合的图像描述[J]. 汤鹏杰,王瀚漓,许恺晟.  自动化学报. 2018(07)
[6]基于多模态神经网络的图像中文摘要生成方法[J]. 刘泽宇,马龙龙,吴健,孙乐.  中文信息学报. 2017(06)
[7]融合注意力和动态语义指导的图像描述模型[J]. 张威,周治平.  计算机科学与探索. 2017(12)



本文编号:3128115

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3128115.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1152***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com