面向短视频的自然语言生成描述方法

发布时间:2021-02-28 12:37
  随着互联网技术的快速发展伴随着的是多媒体数据的大量的累积,其中最为复杂也是最重要的要数大量的视频信息。在二十一世纪的时代,人们的生活水平得到了大量的提升,生活节奏的步伐也是持续的提速,人们的时间显得尤为重要,人们需要花费大量的时间去观看短视频以获取信息已显得尤为累赘。如果能够将视频转化为文字,让用户能够直接快速的阅读简短文字便能获取到相关的信息便显得尤为重要。基于这个前提下,如何能够有效并且快速的将短视频转化为与之相关联的文字信息已经成为目前迫切需要解决的问题。短视频生成文字主要研究的是如何将富含丰富信息的视频数据转化成文字信息,我们也称之为“看图说话”。本质上视觉与语言之间的融会贯通是人类经过漫长的进化与不断的学习而形成的能力。而对于机器而言,这意味着视觉处理与语言处理两个领域之间的衔接。深度学习虽然赋予了机器对一维图片数据、以及二维视频数据比较强的识别理解能力,然而仍面临着在真实应用场景中鲁棒性不足的问题。其中如何有效提取出视频数据丰富的语义信息以及场景信息并且能够有效判断生成的文本信息是否合理、自然显得更为重要。基于深度学习的短视频自然语言生成方法作为一个新兴的研究方向,值得挖掘... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 视频生成文本的国内外研究历史与现状
    1.3 本文的主要贡献和创新
    1.4 本论文的结构安排
第二章 深度学习方法的理论基础介绍及其应用
    2.1 深度学习简介及相关概念
    2.2 神经网络
    2.3 反向传播算法
    2.4 激活函数
    2.5 前向结构
    2.6 过拟合和欠拟合
    2.7 卷积神经网络
    2.8 循环神经网络
    2.9 本章小结
第三章 基于对抗长短记忆网络的短视频生成自然语言的方法
    3.1 简介与相关工作
    3.2 自然语言处理相关的生成判别网络介绍
    3.3 方法介绍
        3.3.1 问题定义
        3.3.2 问题解决方案
        3.3.3 注意力机制
    3.4 实验设计
        3.4.1 数据集介绍
        3.4.2 评价标准
        3.4.3 实验设置
        3.4.4 结果与分析
    3.5 本章小结
第四章 基于交叉和条件长短记忆网络的短视频生成自然语言的方法
    4.1 简介与相关介绍
    4.2 方法介绍
        4.2.1 问题定义
        4.2.2 模型设计
    4.3 实验设计
        4.3.1 数据集介绍
        4.3.2 实验设计细节
        4.3.3 基于UCF-101上的实验分析
        4.3.4 基于MSVD数据集的实验分析
        4.3.5 基于MSR-VTT数据集的实验分析
    4.4 本章小结
第五章 全文总结与展望
    5.1 全文总结
    5.2 后续工作与展望
致谢
参考文献
攻硕期间取得的研究成果



本文编号:3055862

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3055862.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户019a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com