基于先验注意力机制的视频问答系统研究与实现
发布时间:2021-11-17 20:00
视频问答是深度学习中重要的问题之一,被广泛应用于安防、广告系统中,提高视频问答的准确率具有非常重要的意义。近年来,理解视频的内容是在现实世界中开发各种有用应用程序的核心技术之一,例如识别监视系统的各种人为行为或在自动商店中进行客户行为分析。然而,由于其庞大的数据量和复杂的时间结构,理解视频的内容仍然是一个具有挑战性的任务。近年来,自然语言处理中注意力机制方法得到了人们的关注,并迁移到视频问答任务上。但是,现有的方法仍存在四个方面的不足:一是使用对整个视频进行提取特征,这样虽然能够捕捉到视频的所有信息,但是由于视频本身的冗余性,训练代价巨大,得不偿失;二是部分现有方法采用了提取片段帧信息试图来描述视频,提取过多导致内容冗余,提取过少造成内容缺失;三是问题的处理比较粗糙,并没有对停用词进行处理;四是现有的模型并没有考虑视频问答任务复杂性与逻辑性。以上的不足影响了模型的泛化性能,同时由于准确率低使得现有的视频问答模型不能够广泛应用于工业界。本文在注意力机制框架下,提出了先验信息注意力机制MASK模型,并在这基础之上提出了两种不同的视频问答方案:先验MASK的多注意力机制的视频问答方案和先验M...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
短视频公司同时,根据近两年的短视频用户的活动记录,如图1-2所示,短视频用户规
短视频用户规模及其预测
江南大学硕士学位论文2根据字节跳动公司抖音产品的短视频产品链,如图1-3所示。图1-3字节跳动短视频产品链可以发现,视频内容要想能够获利,必须要经过营销平台进入大众的视野,而内容是整个短视频产品链的重点。视频内容需要经过人工审核才能进入用户眼中,然而完全通过人工审核视频却是不现实的,如何高效地理解视频内容成为短视频产品链的重中之重。同时,如何从大量信息中筛选出有价值的信息一直是计算机科学家们考虑的问题,单纯的靠工作人员来筛选信息几乎不可能,也不现实。同时网络上充满着各种言论,信息的可靠性不能得到保证。面对大量的文本信息,出现了阅读理解任务。给定一段文本,对该文本的内容进行提问,然后阅读理解任务会给出该问题的答案,从而减少了人们在大量文本中筛选信息的时间。而对于图像而言,给定一张图像,提出与图像内容相关的问题,让图像问答任务给出该问题的答案。随着手机、平板电脑的普及,单纯的文本或者图像已经很难满足人类的需求。而视频是结合了图像以及文本的媒体,相对于图像或者文本而言,一段短视频含有的信息量更多。因此社交软件、新闻软件等80%是通过短视频来传达信息。但是视频的处理却不能仅仅将图像问答以及文本阅读理解方法简单迁移过去,原因在于视频信息具有时间、空间上的维度信息,因此处理起来更加棘手。视频问答是一种计算机科学中属于多模态的机器学习任务,涉及了文本、图像、音频等多个媒体。如何将这些信息进行有效地融合成为目前视频问答任务的重点。视频问答任务简单来说,与图像问答一致,只不过目标不是图像,而是一段短视频,通过理解短视频以及与短视频相关的问题,从而得到问题的答案。相对于图像问答以及阅读理解而言,视频问答任务更加具有挑战性。一方面,视频?
【参考文献】:
期刊论文
[1]Video Description with Integrated Visual and Textual Information[J]. Yue Wang,Jinlai Liu,Xiaojie Wang. 中国通信. 2019(01)
[2]神经机器翻译综述[J]. 李亚超,熊德意,张民. 计算机学报. 2018(12)
硕士论文
[1]基于深度学习方法的视频问答研究[D]. 梁丽丽.哈尔滨理工大学 2019
本文编号:3501564
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
短视频公司同时,根据近两年的短视频用户的活动记录,如图1-2所示,短视频用户规
短视频用户规模及其预测
江南大学硕士学位论文2根据字节跳动公司抖音产品的短视频产品链,如图1-3所示。图1-3字节跳动短视频产品链可以发现,视频内容要想能够获利,必须要经过营销平台进入大众的视野,而内容是整个短视频产品链的重点。视频内容需要经过人工审核才能进入用户眼中,然而完全通过人工审核视频却是不现实的,如何高效地理解视频内容成为短视频产品链的重中之重。同时,如何从大量信息中筛选出有价值的信息一直是计算机科学家们考虑的问题,单纯的靠工作人员来筛选信息几乎不可能,也不现实。同时网络上充满着各种言论,信息的可靠性不能得到保证。面对大量的文本信息,出现了阅读理解任务。给定一段文本,对该文本的内容进行提问,然后阅读理解任务会给出该问题的答案,从而减少了人们在大量文本中筛选信息的时间。而对于图像而言,给定一张图像,提出与图像内容相关的问题,让图像问答任务给出该问题的答案。随着手机、平板电脑的普及,单纯的文本或者图像已经很难满足人类的需求。而视频是结合了图像以及文本的媒体,相对于图像或者文本而言,一段短视频含有的信息量更多。因此社交软件、新闻软件等80%是通过短视频来传达信息。但是视频的处理却不能仅仅将图像问答以及文本阅读理解方法简单迁移过去,原因在于视频信息具有时间、空间上的维度信息,因此处理起来更加棘手。视频问答是一种计算机科学中属于多模态的机器学习任务,涉及了文本、图像、音频等多个媒体。如何将这些信息进行有效地融合成为目前视频问答任务的重点。视频问答任务简单来说,与图像问答一致,只不过目标不是图像,而是一段短视频,通过理解短视频以及与短视频相关的问题,从而得到问题的答案。相对于图像问答以及阅读理解而言,视频问答任务更加具有挑战性。一方面,视频?
【参考文献】:
期刊论文
[1]Video Description with Integrated Visual and Textual Information[J]. Yue Wang,Jinlai Liu,Xiaojie Wang. 中国通信. 2019(01)
[2]神经机器翻译综述[J]. 李亚超,熊德意,张民. 计算机学报. 2018(12)
硕士论文
[1]基于深度学习方法的视频问答研究[D]. 梁丽丽.哈尔滨理工大学 2019
本文编号:3501564
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3501564.html
最近更新
教材专著