语义指导结合注意力机制与记忆网络的视频描述方法研究
发布时间:2021-12-02 20:07
用自然语言描述视频的任务被称为视频描述,其研究结合了自然语言处理与计算机视觉领域的关键技术,研究成果推动了跨模态分析技术的发展。近年来,越来越多的研究者从事视频描述方向的研究。但是视频描述是一个复杂的任务,它不仅要识别视频中的不同目标以及它们之间的交互,还要用自然语言描述视频内容。当前研究的热点是基于序列学习的视频描述方法,这类方法首先利用卷积神经网络提取视频的特征,然后再用循环神经网络从视觉特征生成句子描述。本文在基于序列学习的视频描述方法的基础上,进行了以下研究:(1)提出了基于深度视觉特征与语义属性指导的视频描述方法。大多数已有的视频描述方法只使用了视频的视觉信息,而忽视了对于视频描述非常重要的语义信息,因此,该方法在进行视频描述时不仅利用了视频的视觉信息,还利用了视频的语义信息作为指导。首先,该方法使用两种卷积网络分别提取视频单帧和连续帧的特征,并将这些特征求平均得到视频的视觉目标特征和动作特征。然后,从训练集的句子描述中获得三种类型的语义属性,并对每种类型的语义属性分别训练各自单独的语义属性预测器。最后,提出基于语义属性指导的长短时记忆网络,用语义属性指导视频描述生成。本文在...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
1.1 研究背景与意义
1.2 视频描述方法的研究现状
1.3 论文内容及章节安排
第二章 基于深度视觉特征与语义属性指导的视频描述
2.1 引言
2.2 基于深度学习的视频视觉特征表示
2.2.1 卷积神经网络简介
2.2.2 基于残差网络的视觉目标特征提取
2.2.3 基于三维残差卷积神经网络的视觉动作特征提取
2.3 视频语义属性表示
2.3.1 视频语义属性提取
2.3.2 视频语义属性预测
2.4 基于深度视觉特征与语义属性指导的视频描述
2.4.1 循环神经网络简介
2.4.2 基于语义属性指导的长短时记忆网络的视频描述生成
2.5 实验结果与分析
2.5.1 实验数据集的介绍
2.5.2 实验设置
2.5.3 视频描述的评价指标
2.5.4 结果与分析
2.6 本章小结
第三章 结合注意力机制与记忆网络的视频描述
3.1 引言
3.2 基于注意力机制的视频显著特征表示
3.3 基于记忆网络的网络记忆增强
3.4 结合注意力机制与记忆网络的视频描述
3.5 实验结果与分析
3.6 本章小结
第四章 总结与展望
4.1 总结
4.2 展望
参考文献
致谢
作者简介
本文编号:3529117
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
1.1 研究背景与意义
1.2 视频描述方法的研究现状
1.3 论文内容及章节安排
第二章 基于深度视觉特征与语义属性指导的视频描述
2.1 引言
2.2 基于深度学习的视频视觉特征表示
2.2.1 卷积神经网络简介
2.2.2 基于残差网络的视觉目标特征提取
2.2.3 基于三维残差卷积神经网络的视觉动作特征提取
2.3 视频语义属性表示
2.3.1 视频语义属性提取
2.3.2 视频语义属性预测
2.4 基于深度视觉特征与语义属性指导的视频描述
2.4.1 循环神经网络简介
2.4.2 基于语义属性指导的长短时记忆网络的视频描述生成
2.5 实验结果与分析
2.5.1 实验数据集的介绍
2.5.2 实验设置
2.5.3 视频描述的评价指标
2.5.4 结果与分析
2.6 本章小结
第三章 结合注意力机制与记忆网络的视频描述
3.1 引言
3.2 基于注意力机制的视频显著特征表示
3.3 基于记忆网络的网络记忆增强
3.4 结合注意力机制与记忆网络的视频描述
3.5 实验结果与分析
3.6 本章小结
第四章 总结与展望
4.1 总结
4.2 展望
参考文献
致谢
作者简介
本文编号:3529117
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3529117.html