针对目标的视频文字描述

发布时间：2020-08-18 20:44

【摘要】：随着深度学习的成功,人工智能领域取得了革命性的进步,各领域的研究发展迅速,其中计算机视觉与自然语言处理结合领域的研究同样受到了学者们广泛的关注。视频文字描述生成就是一项结合了计算机视觉与自然语言处理的任务,它不仅要求算法模型能够很好地提取出视频中的有用信息,还需要模型能够将这些信息有效地组合起来,准确地建立与自然语言信息的相关匹配。首先本文为了建立高性能的视频文字描述算法,提出了先对视频帧建立场景图然后利用图卷积进行特征编码的方式。在建立场景图时,先利用Faster R-cnn目标检测算法检测出视频帧中各目标的位置以及类别信息;然后利用这些检测信息建立简单的全连接模型对目标的实体属性信息进行检测;随后建立关系检测模型对各个目标之间的关联进行检测,其中为了降低稀疏的目标关联造成的检测开销过大问题,本文提出了一种基于自注意力的剪枝模型。利用所有的检测信息可以构建包含有目标节点、目标属性节点、目标关联节点的场景图。这样的场景图能够包含视频帧中几乎所有的语义信息,然后通过图卷积网络来对场景图进行编码。然后在利用图卷积对视频帧进行编码时,本文通过embedding精简了以上场景图结构,使场景图只包含有目标节点,目标关联通过有向边来表示;然后本文对图卷积进行了改进,使之能够应用于有向图中,并且将乘性注意力机制添加进了图卷积中,使得图卷积中各节点能够更好的权衡与邻居节点的关系。通过这样的视频帧编码方式,能够使得特征能够细化到图像中的各个目标,并且包含各个目标的相互关联,相比传统的对视频帧利用卷积网络提取的整体特征更加鲁棒。随后为了学习到视频帧之间以及视频文字描述序列之间的长时间步依赖关系,本文使用Transformer来代替传统的循环神经网络,提高了模型的序列特征学习能力以及训练效率。最后的实验结果表明,本文所构建的算法能够生成更贴近视频目标的文字描述,在MSR-VTT数据集上取得了不错的成绩。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TN919.81;TP391.1
【图文】：

结构示意图,输出门,时间步,输入门

图 2-2 LSTM 结构示意图[34]我们用来更新细胞状态的值可由公式 (2-7) 计算： Ct= tanh(Wc[xt, ht 1] + bc) 状态的更新是由经过遗忘门遗忘后的细胞状态加上经输入门筛选后的待，于是当前时间步的细胞状态可以由如下公式 (2-8) 计算：ct= ftct 1+ it Ct 表示对应元素相乘。输出门的作用是决定哪些信息是 LSTM 需要输以由式 (2-9) 表示：ot= σ(Wo[xt, ht 1] + bo) M 的输出基于当前时间步已经更新过的细胞状态 ct，经过输出门的筛选

示意图,网络结构,示意图,循环网络

由 Vaswani[35]等人提出的一种替代 Seq2Seq传统的 Seq2Seq 模型使用循环网络结构作为赖于上一个时间步的输出，这样使得网络的长序列的输入。这使得包含循环结构的网络型的训练时间。除此之外，基于门控改进的循缓解了传统循环网络对于序列长距离依赖学信息传递增益仍然会衰减，这使得 LSTM 对用自注意力 (self-attention) 机制构造了一种，这使得序列的每一个时间步可以更加容易，而跟距离远近无关，并且序列中所有时间训练变得更加容易。 Encoder 和 Decoder 均由其各自相同的基础需要进行调整，其总体的网络结构如图 2-3[35

示意图,注意力,点积,比例

2-4 比例点积注意力示意图注意力 (MultiHead Attent比例点积注意力模块的输终多头注意力将不同的比可由如下公式 (2-12) 与= Attention(QWQi, KWKi, VQ,K,V) = Concat(h1, ...,dk, WKiRdmodeldk, WVi积注意力模块等价于并行

【相似文献】