基于深度学习的视频描述技术研究与应用

发布时间：2020-05-24 01:01

【摘要】：视频描述技术旨为视频自动生成自然语言描述句。该技术在社交网络、监控系统和人机交互系统等多种场合中都有着巨大的应用价值。视频描述任务不但涉及视觉信息处理,例如提取视频中的物体和关系等词语,而且要生成满足语法约束的自然语言句子。其研究不仅有助于推动视觉和语言信息处理技术的发展,还有助于推动这两类技术的融合发展。当前的视频描述技术通常为视频片段生成一个描述句,常用的模型框架基于卷积神经网络-长短时记忆网络(Convolutional Neural Network-Long Short Term Memory,CNN-LSTM)的编码-解码器结构。虽然该模型已取得一定的研究成果,但仍然存在着一些待解决的问题,包括:1)对语言信息的利用还不够深入;2)对视觉和语言融合信息的分析利用还不够深入;3)对视觉和语言信息之间的交互作用分析还不够深入。本文重点针对以上三个问题开展研究,主要工作和成果包括:1)提出了一种加入句子主谓宾监督信息的视频描述模型(Video Description with Subject-Verb-Object Supervision,VD-SVOs)。该模型在经典CNN-LSTM结构的基础上,在LSTM网络输出端加入了主谓宾的分类器。主谓宾信息是一个句子的骨架信息,它包含了一个句子的主要内容及基本的句法结构,对于提高描述语言的质量具有重要价值。在Youtube2Text视频描述数据集上28.29%的METEOR实验结果表明,本文提出的VD-SVOs模型所生成的句子能更好地符合句法规则,具有比基准模型更好的性能。2)提出了一种视觉和文本信息融合的视频描述模型(Video Description with Integrated Information of Vision and Text,VD-ivt)。该模型通过在基础结构中加入两个约束通道来促进图文信息的融合。VD-ivt模型包括三个通道,第一个通道为基础的CNN-LSTM生成结构;第二个通道为句子到句子的编码解码结构,用来学习语言信息;第三个通道在编码端依次输入视觉和文本信息,通过LSTM网络进行融合,加强了文本和视觉模态信息间的联系。在Youtube2Text和LSMDC数据集上的实验结果表明,VD-ivt模型分别取得了 29.84%和7.5%的METEOR结果,均优于其他基准模型,可视化分析表明VD-ivt模型学习到了视觉和文本的融合表示。3)提出了一种基于同步交叉注意力的图像描述模型(Image Caption with Synchronous Cross-Attention,IC-SCA)。该模型在提取视觉信息时加入文本信息的监督,而在文本生成时加入视觉信息的监督。IC-SCA模型首先基于上一时刻的词表示和图像特征构建上一时刻词的视觉表示,然后输入到LSTM网络中预测当前时刻词的视觉表示,并将其作为视觉监督信息输入到gLSTM网络中生成描述词。在MS-COCO图像描述数据集上的实验结果表明,IC-SCA模型取得了 100%的CIDEr值,优于基准模型。通过可视化模型中的向量表示验证了所提的注意力信息包含了一定的序列关系。4)设计并实现了一个基于视频描述模型的“盲眼”系统,在手机和网页两个终端上展示。网页端的应用可以针对用户上传的视频生成相应的描述句,而手机端的应用则可以录制一段视频文件,生成对应的描述句,并由语音说出。“盲眼”系统意在为视觉有障碍的人提供当前场景的信息,为他们的日常生活提供便利。
【图文】：

视频,示例

逦逡逑图１－１给出了一个视频描述任务的例子。从图中可以看出，该任务的输入是逡逑一段视频片段，目前评测数据中的视频片段长度通常在１０秒到２０秒之间，输出逡逑则是该视频的描述语句，通常是一个完整的不超过２０个单词的英语句子。与视逡逑频分类任务识别出标签类别不同，视频描述任务生成的是一个内容丰富并且满足逡逑语法条件的自然语句。同时与基于一些关键信息进行自然语言生成的任务不同，逡逑视频描述任务直接基于视觉信息进行描述句生成，因此，需要提取视觉信息，例逡逑如识别视频中的物体形态、人物动作和物体之间的关系等。显然，，视频描述任务逡逑需要依托计算机视觉（Ｃｏｍｐｕｔｅｒ邋Ｖｉｓｏｎ，ＣＶ）和自然语言处理（Ｎａｔｕｒａｌ邋Ｌａｎｇｕａｇｅ逡逑Ｐｒｏｃｅｓｓｉｎｇ，ＮＬＰ）两个领域理论和技术的共同支撑。因而，开展视频描述领域的逡逑研宄工作，有助于促进多模态信息融合与交互技术的发展，进一步启发和促进其逡逑他多模态任务的研宄，这对于相关学科学术的研宄和探讨具有重要的意义。由于逡逑视频描述技术所具有的巨大应用前景和重要学术价值，促使众多的学者从各自的逡逑领域出发，在不同层面和不同角度开展相关的研究。逡逑

模型结构,图像描述

用于生成语言描述句逡逑２０１５年，Ｖｉｎｙａｌｓ等人［５１］参考机器翻译模型［４５］，提出一个基于深度神经网络逡逑结构的ＮＩＣ邋（Ｎｅｕｒａｌ邋Ｉｍａｇｅ邋Ｃａｐｔｉｏｎ）模型，用于解决图像描述问题，结构如图１－２逡逑所示。在图的左端，该模型采用ＡｌｅｘＮｅｔ网络［２９］提取图像特征。之后，在右端先逡逑将图像特征输入到长短时记忆网络（Ｌｏｎｇ邋Ｓｈｏｒｔ－Ｔｅｒｍ邋Ｍｅｍｏｒｙ，邋ＬＳＴＭ）的第一个逡逑单元。然后在第二个时刻输入句子的起始符＜ＳＴＡＲＴ＞，之后每个时刻逐次输入逡逑上一个时刻的输出词，预测当前时刻的词，该过程直到预测出句子的结束符逡逑＜ＥＮＤ＞停止，最终输出完整描述句。在图像描述集上评测，结果说明ＮＩＣ模型逡逑超过了其他描述模型的结果。不同于ＮＩＣ模型只采用嵌套矩阵建模词表示，Ｍａｏ逡逑等人［５２］使用一个２层的嵌套网络学习词表示。然后使用一个多模态层将文本表逡逑示和视觉信息融合在一起解决图像描述任务。而在２０１６年，Ｗａｎｇ等人［５３］采用逡逑一个双向的长短时记忆网络（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌ邋Ｌｏｎｇ邋Ｓｈｏｒｔ－Ｔｅｒｍ邋Ｍｅｍｏｒｙ
【学位授予单位】：北京邮电大学
【学位级别】：博士
【学位授予年份】：2019
【分类号】：TP391.41;TP183

【相似文献】