当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视觉信息自然语言描述方法研究

发布时间:2021-04-26 17:59
  随着计算机网络的普及和多媒体信息技术的快速发展,社交媒体早已成为人们生活不可或缺的一部分。网络中流传的海量多媒体数据,意味着人类社会进入了大数据时代。在这样的背景下,图像和视频因其能够便捷的记录和丰富我们的日常生活,已经成为目前最为流行的数据形式。在当前火热的人工智能领域,对于如何让计算机更像人一样的具备思考能力,让计算机理解并自动的用自然语言描述图像和视频等视觉信息的研究越来越引起人们的关注。视觉信息描述作为其中的代表性研究,在多媒体信息分析,人机交互,帮助视力障碍人群等方面有很多潜在应用价值。目前,很多国内外的研究学者在图像和视频等视觉信息自然语言描述领域展开大量研究,但是在视频描述方面,如何精确的获取视频中动态的视觉特征和语义信息仍是目前的研究难题。近年来,编码-解码框架被广泛应用在视觉信息描述任务中,其中因为时域注意力机制能够很好的揭示视觉信息和描述语句单词之间的关系而成为目前相关研究的主要方法。但是对于视频而言,大多数方法在获取精确的视觉特征和语义信息方面仍存在不足之处。本文从获取精确的视觉特征和更好的运用语义信息和视觉信息的动态关系两个方面提出了两个用于视频自然语言描述的方... 

【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国内研究现状
        1.2.2 国外研究现状
    1.3 本文主要贡献
    1.4 本文组织结构
第2章 相关基础理论介绍
    2.1 视觉信息自然语言描述综述
        2.1.1 图像自然语言描述模型
        2.1.2 视频自然语言描述模型
    2.2 基于语法模版的方法
    2.3 基于序列生成的方法
        2.3.1 编码-解码框架
        2.3.2 基于语义信息的模型
        2.3.3 基于注意力机制的模型
    2.4 本章小结
第3章 基于细粒度时空注意力的视频描述模型
    3.1 模型框架
    3.2 基于空域注意力的编码
        3.2.1 Mask R-CNN目标识别算法
        3.2.2 MPM掩码池化模块
    3.3 基于时域注意力的解码
        3.3.1 LSTM长短期记忆网络
        3.3.2 基于柔性注意力机制的解码器
    3.4 本章小结
第4章 基于视觉和语义的双流注意力模型
    4.1 模型框架
    4.2 视觉特征与语义特征的提取
        4.2.1 视觉特征提取
        4.2.2 语义特征提取
    4.3 基于双流注意力的LSTM解码
    4.4 本章小结
第5章 实验结果及分析
    5.1 数据集与评价标准
        5.1.1 数据集
        5.1.2 评价标准
    5.2 实验设置
        5.2.1 数据预处理
        5.2.2 其他超参数设置
        5.2.3 对比算法
    5.3 基于细粒度时空注意力的模型的实验结果与分析
        5.3.1 在MSVD数据集上的实验结果及分析
        5.3.2 在MSR-VTT数据集上的实验结果及分析
        5.3.3 掩码池化模块性能分析
        5.3.4 视觉显著性质量分析
    5.4 基于视觉和语义的双流注意力模型的实验结果与分析
        5.4.1 在MSR-VTT数据集上的实验结果及分析
        5.4.2 在MSR-VTT2017 比赛中的结果及分析
        5.4.3 视觉显著性质量分析
    5.5 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 未来工作展望
参考文献
发表论文和参加科研情况说明
致谢


【参考文献】:
期刊论文
[1]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗.  计算机学报. 2013(06)

硕士论文
[1]基于深度学习的人类行为识别和视频描述生成[D]. 王轩瀚.电子科技大学 2017



本文编号:3161858

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3161858.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d5826***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com