协同常规-特定语义的多特征图像字幕生成

发布时间:2021-10-17 07:03
  随着互联网带宽的大幅增加和各种移动设备的激增,Web2.0技术下图像数据已经出现爆炸性的生成,发布和传播,成为当今大数据不可或缺的一部分。然而互联网上的部分图像是无标记的,为了更有效地存储、管理、检索和利用这些数据,近年来,研究人员致力于用完整的自然语句自动描述图像的内容,即为图像字幕生成。然而,图像字幕生成是一个非常具有挑战性的任务,它不仅需要利用模型去捕获图像中呈现的对象或者场景,表达图像中对象和场景的相关性,而且还要用恰当的自然语言来描述它们。针对上述问题,本文利用深度学习方法对图像字幕生成进行了较为系统深入的研究,主要的研究成果如下:(1)提出了一种基于长短时记忆网络(Long Short Term Memory,LSTM)的从多特征序列到语句序列的图像字幕生成框架。为了更全面的描述图像特征,此方法提出分别使用基于ImageNet ILSVRC图像分类数据集训练的ResNet152提取图像中目标特征,使用基于Places365场景数据库训练的ResNet152提取图像中的场景上下文特征,利用二者的互补性全面描述目标和场景上下文特征。为了充分利用图像字幕描述时的常规语义信息,本文... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 图像字幕生成方法的现状
    1.3 论文内容及章节安排
第二章 基于视觉目标及语义上下文特征的图像字幕生成
    2.1 引言
    2.2 基于深度学习的多特征提取
        2.2.1 卷积神经网络简介
        2.2.2 图像目标特征提取
        2.2.3 图像场景特征提取
        2.2.4 图像视觉语义提取
    2.3 基于LSTM的从多特征序列到语句序列的图像字幕生成
        2.3.1 长短时记忆网络的简介
        2.3.2 从多特征序列到语句序列的图像字幕生成
    2.4 实验结果与分析
        2.4.1 实验数据集的介绍
        2.4.2 图像字幕生成模型训练
        2.4.3 图像字幕生成的评价准则
        2.4.4 实验结果与分析
    2.5 本章小结
第三章 基于特定语义监督的测试图像语句生成
    3.1 引言
    3.2 基于视觉语义嵌入空间的相似语句检索
    3.3 协同常规和特定语义的语义属性特征提取
    3.4 基于“特定语义监督器”的字幕生成
    3.5 实验结果与分析
        3.5.1 协同常规和特定语义的语义属性的评价
        3.5.2 “特定语义监督器”的影响
        3.5.3 与其他方法比较
    3.6 本章小结
第四章 总结与展望
    4.1 总结
    4.2 展望
参考文献
致谢
作者简介



本文编号:3441339

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3441339.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户086e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com