当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视频描述技术研究与应用

发布时间:2020-05-24 01:01
【摘要】:视频描述技术旨为视频自动生成自然语言描述句。该技术在社交网络、监控系统和人机交互系统等多种场合中都有着巨大的应用价值。视频描述任务不但涉及视觉信息处理,例如提取视频中的物体和关系等词语,而且要生成满足语法约束的自然语言句子。其研究不仅有助于推动视觉和语言信息处理技术的发展,还有助于推动这两类技术的融合发展。当前的视频描述技术通常为视频片段生成一个描述句,常用的模型框架基于卷积神经网络-长短时记忆网络(Convolutional Neural Network-Long Short Term Memory,CNN-LSTM)的编码-解码器结构。虽然该模型已取得一定的研究成果,但仍然存在着一些待解决的问题,包括:1)对语言信息的利用还不够深入;2)对视觉和语言融合信息的分析利用还不够深入;3)对视觉和语言信息之间的交互作用分析还不够深入。本文重点针对以上三个问题开展研究,主要工作和成果包括:1)提出了一种加入句子主谓宾监督信息的视频描述模型(Video Description with Subject-Verb-Object Supervision,VD-SVOs)。该模型在经典CNN-LSTM结构的基础上,在LSTM网络输出端加入了主谓宾的分类器。主谓宾信息是一个句子的骨架信息,它包含了一个句子的主要内容及基本的句法结构,对于提高描述语言的质量具有重要价值。在Youtube2Text视频描述数据集上28.29%的METEOR实验结果表明,本文提出的VD-SVOs模型所生成的句子能更好地符合句法规则,具有比基准模型更好的性能。2)提出了一种视觉和文本信息融合的视频描述模型(Video Description with Integrated Information of Vision and Text,VD-ivt)。该模型通过在基础结构中加入两个约束通道来促进图文信息的融合。VD-ivt模型包括三个通道,第一个通道为基础的CNN-LSTM生成结构;第二个通道为句子到句子的编码解码结构,用来学习语言信息;第三个通道在编码端依次输入视觉和文本信息,通过LSTM网络进行融合,加强了文本和视觉模态信息间的联系。在Youtube2Text和LSMDC数据集上的实验结果表明,VD-ivt模型分别取得了 29.84%和7.5%的METEOR结果,均优于其他基准模型,可视化分析表明VD-ivt模型学习到了视觉和文本的融合表示。3)提出了一种基于同步交叉注意力的图像描述模型(Image Caption with Synchronous Cross-Attention,IC-SCA)。该模型在提取视觉信息时加入文本信息的监督,而在文本生成时加入视觉信息的监督。IC-SCA模型首先基于上一时刻的词表示和图像特征构建上一时刻词的视觉表示,然后输入到LSTM网络中预测当前时刻词的视觉表示,并将其作为视觉监督信息输入到gLSTM网络中生成描述词。在MS-COCO图像描述数据集上的实验结果表明,IC-SCA模型取得了 100%的CIDEr值,优于基准模型。通过可视化模型中的向量表示验证了所提的注意力信息包含了一定的序列关系。4)设计并实现了一个基于视频描述模型的“盲眼”系统,在手机和网页两个终端上展示。网页端的应用可以针对用户上传的视频生成相应的描述句,而手机端的应用则可以录制一段视频文件,生成对应的描述句,并由语音说出。“盲眼”系统意在为视觉有障碍的人提供当前场景的信息,为他们的日常生活提供便利。
【图文】:

视频,示例


逦逡逑图1-1给出了一个视频描述任务的例子。从图中可以看出,该任务的输入是逡逑一段视频片段,目前评测数据中的视频片段长度通常在10秒到20秒之间,输出逡逑则是该视频的描述语句,通常是一个完整的不超过20个单词的英语句子。与视逡逑频分类任务识别出标签类别不同,视频描述任务生成的是一个内容丰富并且满足逡逑语法条件的自然语句。同时与基于一些关键信息进行自然语言生成的任务不同,逡逑视频描述任务直接基于视觉信息进行描述句生成,因此,需要提取视觉信息,例逡逑如识别视频中的物体形态、人物动作和物体之间的关系等。显然,,视频描述任务逡逑需要依托计算机视觉(Computer邋Vison,CV)和自然语言处理(Natural邋Language逡逑Processing,NLP)两个领域理论和技术的共同支撑。因而,开展视频描述领域的逡逑研宄工作,有助于促进多模态信息融合与交互技术的发展,进一步启发和促进其逡逑他多模态任务的研宄,这对于相关学科学术的研宄和探讨具有重要的意义。由于逡逑视频描述技术所具有的巨大应用前景和重要学术价值,促使众多的学者从各自的逡逑领域出发,在不同层面和不同角度开展相关的研究。逡逑

模型结构,图像描述


用于生成语言描述句逡逑2015年,Vinyals等人[51]参考机器翻译模型[45],提出一个基于深度神经网络逡逑结构的NIC邋(Neural邋Image邋Caption)模型,用于解决图像描述问题,结构如图1-2逡逑所示。在图的左端,该模型采用AlexNet网络[29]提取图像特征。之后,在右端先逡逑将图像特征输入到长短时记忆网络(Long邋Short-Term邋Memory,邋LSTM)的第一个逡逑单元。然后在第二个时刻输入句子的起始符<START>,之后每个时刻逐次输入逡逑上一个时刻的输出词,预测当前时刻的词,该过程直到预测出句子的结束符逡逑<END>停止,最终输出完整描述句。在图像描述集上评测,结果说明NIC模型逡逑超过了其他描述模型的结果。不同于NIC模型只采用嵌套矩阵建模词表示,Mao逡逑等人[52]使用一个2层的嵌套网络学习词表示。然后使用一个多模态层将文本表逡逑示和视觉信息融合在一起解决图像描述任务。而在2016年,Wang等人[53]采用逡逑一个双向的长短时记忆网络(Bi-directional邋Long邋Short-Term邋Memory
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41;TP183

【相似文献】

相关期刊论文 前10条

1 康杰;杨达;李永涛;;犯罪描述技术:侦查心理应用研究的前沿[J];中国刑警学院学报;2005年01期

2 刘传虎;不同勘探开发阶段的储层地震描述技术[J];中国石油勘探;2003年02期

3 孙玉芝;;“标准物质描述技术规范研究制定及试点应用”项目通过验收[J];中国计量;2006年06期

4 石砥石,谭俊敏,王大华,范云;地震描述技术在新滩油田储量计算中的应用[J];海洋石油;2002年03期

5 史小平;特高含水期剩余油分布的定量描述技术[J];内蒙古石油化工;2004年01期

6 林淑荣,张明学;精细构造描述技术在油田开发中的应用[J];油气田地面工程;2004年04期

7 张广泉;计算机网络通信协议的一种形式化描述技术[J];重庆师范学院学报(自然科学版);1999年01期

8 胡言微语;;“标准如歌”——标准化之音乐论[J];标准生活;2010年03期

9 卢安,李树东,任怀志;工作描述技术在农村卫技人员培训中的应用[J];实用乡村医生杂志;1996年02期

10 张忠社;郭卫国;;基于路径描述技术的配电能力研究[J];自动化与仪器仪表;2019年05期

相关会议论文 前8条

1 王秀娟;;大庆外围低渗透油藏精细地质描述技术[A];2004第三届油气储层研讨会论文摘要集[C];2004年

2 史永晋;;基于惯性导航系统的海底管道轨迹描述技术研究[A];第十五届中国海洋(岸)工程学术讨论会论文集(上)[C];2011年

3 陈建文;戴春山;龚建明;于常青;符溪;白志琳;徐华宁;高红芳;;中国海域层序地层学环境描述技术[A];2001年全国沉积学大会摘要论文集[C];2001年

4 谷国翠;孙明江;李国栋;姜蕾;;分流河道砂体识别与描述技术研究——以营子街地区沙三上亚段为例[A];中国石油学会2017年物探技术研讨会论文集[C];2017年

5 苑书金;;大牛地气田致密储层地震描述技术的研究和应用[A];中国地球物理学会第二十三届年会论文集[C];2007年

6 王咸彬;;准噶尔盆地腹部隐蔽圈闭识别与描述技术[A];中国地球物理·2009[C];2009年

7 亓校湘;;三角洲前缘相储层定量描述技术及对储层沉积特征的认识[A];2002低渗透油气储层研讨会论文摘要集[C];2002年

8 高平;于正军;张建芝;;断陷湖盆陡坡带砂砾岩扇体地球物理描述技术[A];中国地球物理学会第二十三届年会论文集[C];2007年

相关重要报纸文章 前7条

1 记者 王志田 通讯员 孙加平;“两特低”油藏综合描述技术取得成功[N];中国石油报;2006年

2 通讯员 周小松 刘宪明;采油六厂井震结合搞挖潜[N];大庆日报;2010年

3 路智勇 胜利油田现河采油厂厂长;通过创新实践消灭低效储量[N];中国石化报;2019年

4 王宏伟 周洪波;谨防战术上的“被动锁定”[N];中国国防报;2007年

5 本报记者 吴苡婷;快速精确反应 打造监控产业的新蓝海[N];上海科技报;2013年

6 公安部第三研究所 胡传平 梅林;视频监控如何应对深度应用的挑战[N];人民公安报;2010年

7 于鸿升 记者 栾哲;企校联姻育人才[N];吉林日报;2011年

相关博士学位论文 前1条

1 汪悦;基于深度学习的视频描述技术研究与应用[D];北京邮电大学;2019年

相关硕士学位论文 前7条

1 姜福东;萨中密井网开发区储层综合描述技术研究[D];东北石油大学;2010年

2 韩东妹;汉字字形描述技术研究[D];内蒙古师范大学;2007年

3 张君泉;基于语义Web的服务描述技术研究[D];山东科技大学;2006年

4 张钰;异构网络可编程设备互操作技术研究[D];大连理工大学;2007年

5 李田田;技术路线图在科技奥运中的应用研究[D];河南大学;2007年

6 李金金;基于k曲率的尺度空间描述技术研究[D];苏州大学;2014年

7 严健;TCP/IP协议鲁棒性测试研究[D];华中科技大学;2009年



本文编号:2678223

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2678223.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0efa9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com