多目标语言图像描述模型的研究

发布时间:2021-09-07 18:31
  图像描述任务是自然语言处理和计算机视觉领域的交叉课题,近些年引起了国内外学者的广泛关注。随着人工智能技术的兴起,很多有效的图像描述模型被提出,但是大多数模型都将长短时记忆网络(Long Short-term Memory Networks,LSTM)作为生成器,而LSTM存在不能很好支持较长序列依赖的缺点,成为了基于LSTM的图像描述模型的性能瓶颈,导致现有模型不能很好学习较长句子中的上下文信息。目前的图像描述模型一般只能针对一种目标语言进行生成,而在很多应用场景中需要不同语言的文本,图像描述作为一种应用广泛的技术不应受到语言的限制。本课题针对以上问题展开了研究。针对目前模型支持较长序列依赖能力较差的问题,本文对图像描述模型的原理和目前先进的机器翻译模型展开研究,提出了一种基于机器翻译模型的图像描述模型。该模型利用机器翻译模型中现有的编码器和解码器结构,并融入预训练的卷积神经网络和一些解决特定问题的网络结构,能够更好学习较长句子中的上下文依赖信息。本文通过对比模型在句子长短分布不同的数据集上的表现验证模型的有效性。实验结果表明,提出的模型在较长句子分布较多的数据集中表现优于基于LSTM... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景及研究的目的和意义
        1.1.1 课题背景及来源
        1.1.2 研究目的及意义
    1.2 国内外研究现状
        1.2.1 基于机器学习的图像描述模型
        1.2.2 基于深度学习的图像描述模型
        1.2.3 基于强化学习的图像描述模型
        1.2.4 图像描述的评价指标
        1.2.5 现有研究中存在的主要问题和不足
    1.3 本文的主要研究内容
    1.4 本文的组织结构
第2章 图像描述模型的原理
    2.1 引言
    2.2 图像描述模型的优化目标
    2.3 基于LSTM的图像描述模型
        2.3.1 LSTM模型
        2.3.2 基于LSTM的图像描述模型
        2.3.3 基于LSTM的图像描述模型的改进方法
    2.4 TRANSFORMER模型
    2.5 本章小结
第3章 多目标语言图像描述模型的研究
    3.1 引言
    3.2 基于TRANSFORMER的图像描述模型
    3.3 多目标语言图像描述模型的原理
    3.4 多语言图像描述模型的设计
        3.4.1 编码器设计
        3.4.2 解码器设计
    3.5 多目标语言图像描述模型的优化
        3.5.1 波束搜索
        3.5.2 基于目标检测的图像特征提取
    3.6 本章小结
第4章 图像描述模型的实验及分析
    4.1 引言
    4.2 数据集及评价指标
        4.2.1 数据集
        4.2.2 评价指标
    4.3 基于LSTM和 TRANSFORMER的图像描述模型的实验及分析
    4.4 多目标语言图像描述模型的实验结果及分析
    4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢



本文编号:3390040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3390040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ae19***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com