基于深度学习的人类行为识别和视频描述生成
本文选题:行为识别 + 视频描述生成 ; 参考:《电子科技大学》2017年硕士论文
【摘要】:视频智能分析一直是计算机视觉领域的研究热点。其中涉及到不同的研究问题,包括视频语义分割,视频追踪,视频检索,行为识别以及视频描述生成等等。为了更进一步构建视频内容与高层语义之间的桥梁,本文围绕两个具体的视频应用进行深入研究:视频中的行为识别和视频描述生成。具体而言,我们把行为识别视作低层语义分类问题。而将视频描述问题视作为高层语义生成问题。因为该任务要求同时理解视觉内容和自然语言。而针对这些问题的挑战,本文具体研究两个问题:1)如何构建一个算法计算视频对应的模式。2)如何构建一个有效的计算框架来架起视频内容与自然语言的桥梁。对于视频中的行为识别而言,传统的方法将此问题化为多分类问题,并且提出了不同的视频特征提取方法。然而,传统的方法基于低层信息进行提取,比如从视觉纹理信息或者视频中的运动估计值。由于提取的信息单一,不能很好的代表视频内容,进而导致所优化的分类器并不是最优的。而作为深度学习中的一项技术,卷积神经网络将特征学习和分类器学习融合为一个整体,并且成功应用在视频中的行为识别方面。然而,当前提出的并应用在行为识别方面的卷积神经网络框架仍具有三种限制:1)输入网络的视频的空间尺寸必须固定大小;2)输入网络的视频的时长固定;3)网络提取短时序结构的特征。这使得网络模型应用在极强的限制条件下,不利于现实场景下的应用扩展。为了解决以上的问题,本文提出一种基于3D卷积网络的端到端识别模型。该模型实现在任意尺度和时长的视频条件下进行行为识别。具体而言,首先将一个视频划分为一系列连续的视频片段。然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。我们在UCF101,HMDB51和ACT三个通用的数据集上评估提出的模型。实验结果显示,和目前流行的2D或3D为基础的神经网络模型相比,提出的方法在识别性能上得到了提升。在视频描述生成方面,以编码-解码为基础的框架已经得到了广泛的应用。最近,时序注意力机制已经被提出并且被证明能够提升以编码-解码为基础的描述生成模型的性能。然而,时序注意力机制只解决了视频内容的选取。对于语句的上下文则是由先验语义而定。然而,在视频描述生成这个方面,目前的方法没有同时考虑时序注意力机制和先验语义建模。为了解决这个问题,本文提出一个新的端到端的神经网络模型,能够将高层的视觉语义概念融入到时序注意力机制,并促进生成更准确的视频描述。在提出的框架中,编码神经网络模型用于提取视频的视觉特征,并且通过该特征预测语义概念。同时,解码神经网络根据视觉特征与语义信息来生成连贯的自然语言句子。具体而言,解码神经网络结合了视觉特征和语义表达特征。并且将语义信息和注意力机制嵌入到GRU神经网络单元中去更加准确的学习句子的生成。本文在两个代表性的数据集上(MSVD和MSRVTT)验证提出的框架。实验结果显示提出的网络模型在BLEU和METEOR两个评价标准上,比以往的方法得到更好的性能评估。
[Abstract]:Video intelligence analysis has been a hot topic in the field of computer vision. It involves different research issues, including video semantic segmentation, video tracking, video retrieval, behavior recognition and video description generation. In order to further build a bridge between video content and high level semantics, this paper focuses on two specific videos. Conduct in-depth study: behavior recognition and video description generation in video. Specifically, we regard behavior recognition as a low level semantic classification problem. Video description is considered as a high-level semantic generation problem. The task requires simultaneous understanding of visual content and natural language. Two problems: 1) how to build an algorithm for computing video corresponding to.2) how to build an effective framework to build a bridge between video content and natural language. For the behavior recognition in video, the traditional method turns this problem into a multi classification problem, and presents different methods of video feature extraction. The traditional method is based on low level information, such as the motion estimation from visual texture information or video. Because the extracted information is single, it can not represent the video content well, and the optimized classifier is not optimal. As a technique in depth learning, the convolution neural network will learn the feature and the feature. Classifier learning is integrated into a whole and is successfully applied to behavior recognition in video. However, the current convolution neural network framework which is proposed and applied to behavior recognition still has three limitations: 1) the space size of the video in the input network must be fixed in size; 2) the time length of the video in the input network; 3) network extraction. In order to solve the above problems, this paper proposes an end to end recognition model based on 3D convolution network. This model implements the behavior recognition under arbitrary and long time video conditions. First, a video is divided into a series of continuous video clips. Then, the continuous video clips are input into the 3D neural network composed of the convolution computing layer and the spatio-temporal Pyramid pool layer to get the continuous video clip features. Then the video features of the global video are calculated by the long and short memory model as the behavior pattern. We are in the UCF101, The experimental results show that the proposed method has been improved in recognition performance compared with the current popular 2D or 3D based neural network models. In the aspect of video description generation, the framework based on encoding and decoding has been widely used. Recently, time series has been applied to HMDB51 and 3D based neural network models. The attention mechanism has been proposed and proved to be able to improve the performance of the description generation model based on the coding decode. However, the time series attention mechanism only solves the selection of video content. The context of the statement is determined by a priori semantics. However, the current method is not tested at the same time in the aspect of video description generation. In order to solve this problem, this paper proposes a new end to end neural network model, which can integrate the high-level visual semantic concepts into the time series attention mechanism and promote more accurate video description. In the frame, the coded neural network model is used to extract video. The visual features are predicted and the semantic concepts are predicted by this feature. At the same time, the neural network is decoded to generate coherent natural language sentences based on visual features and semantic information. In particular, the decoded neural network combines the visual features and semantic expression features. And the semantic information and attention mechanism are embedded into the GRU neural network unit. To more accurately learn the generation of sentences. This paper validates the proposed framework on two representative data sets (MSVD and MSRVTT). The experimental results show that the proposed network model is better performance evaluation than previous methods on the two evaluation criteria of BLEU and METEOR.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41;TP181
【相似文献】
相关期刊论文 前10条
1 刘相滨,向坚持,王胜春;人行为识别与理解研究探讨[J];计算机与现代化;2004年12期
2 李宁;须德;傅晓英;袁玲;;结合人体运动特征的行为识别[J];北京交通大学学报;2009年02期
3 张伟东;陈峰;徐文立;杜友田;;基于阶层多观测模型的多人行为识别[J];清华大学学报(自然科学版);2009年07期
4 吴联世;夏利民;罗大庸;;人的交互行为识别与理解研究综述[J];计算机应用与软件;2011年11期
5 申晓霞;张桦;高赞;薛彦兵;徐光平;;一种鲁棒的基于深度数据的行为识别算法[J];光电子.激光;2013年08期
6 郑胤;陈权崎;章毓晋;;深度学习及其在目标和行为识别中的新进展[J];中国图象图形学报;2014年02期
7 曾青松;余明辉;贺卫国;李玲;;一种行为识别的新方法[J];昆明理工大学学报(理工版);2009年06期
8 谷军霞;丁晓青;王生进;;基于人体行为3D模型的2D行为识别[J];自动化学报;2010年01期
9 李英杰;尹怡欣;邓飞;;一种有效的行为识别视频特征[J];计算机应用;2011年02期
10 王新旭;;基于视觉的人体行为识别研究[J];中国新通信;2012年21期
相关会议论文 前7条
1 苗强;周兴社;於志文;倪红波;;一种非觉察式的睡眠行为识别技术研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
2 齐娟;陈益强;刘军发;;基于多模信息感知与融合的行为识别[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
3 方帅;曹洋;王浩;;视频监控中的行为识别[A];2007中国控制与决策学术年会论文集[C];2007年
4 黄紫藤;吴玲达;;监控视频中简单人物行为识别研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
5 安国成;罗志强;李洪研;;改进运动历史图的异常行为识别算法[A];第八届中国智能交通年会优秀论文集——智能交通与安全[C];2013年
6 王忠民;曹栋;;坐标转换在移动用户行为识别中的应用研究[A];2013年全国通信软件学术会议论文集[C];2013年
7 刘威;李石坚;潘纲;;uRecorder:基于位置的社会行为自动日志[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
相关重要报纸文章 前4条
1 李晨光;导入CIS要注意什么?[N];河北经济日报;2001年
2 农发行鹿邑支行党支部书记 行长 刘永贞;发行形象与文化落地农[N];周口日报;2007年
3 东林;行为识别新技术让监控没有“死角”[N];人民公安报;2007年
4 田凯 徐蕊 李政育 信木祥;博物馆安全的国际经验[N];中国文物报;2014年
相关博士学位论文 前10条
1 邵延华;基于计算机视觉的人体行为识别研究[D];重庆大学;2015年
2 仝钰;基于条件随机场的智能家居行为识别研究[D];大连海事大学;2015年
3 冯银付;多模态人体行为识别技术研究[D];浙江大学;2015年
4 姜新波;基于三维骨架序列的人体行为识别研究[D];山东大学;2015年
5 裴利沈;视频中人体行为识别若干问题研究[D];电子科技大学;2016年
6 周同驰;行为识别中基于局部时空关系的特征模型研究[D];东南大学;2016年
7 徐海燕;复杂环境下行为识别特征提取方法研究[D];东南大学;2016年
8 吴云鹏;集体行为的识别与仿真研究[D];郑州大学;2017年
9 刘艳秋;舍饲环境下母羊产前典型行为识别方法研究[D];内蒙古农业大学;2017年
10 何卫华;人体行为识别关键技术研究[D];重庆大学;2012年
相关硕士学位论文 前10条
1 王轩瀚;基于深度学习的人类行为识别和视频描述生成[D];电子科技大学;2017年
2 胡珂杰;基于3D骨骼的人体行为识别关键技术研究[D];江南大学;2018年
3 唐小琴;基于全局和局部运动模式的人体行为识别研究[D];西南大学;2015年
4 胡秋扬;可穿戴式个人室内位置和行为监测系统[D];浙江大学;2015年
5 陈钰昕;基于时空特性的人体行为识别研究[D];燕山大学;2015年
6 任亮;智能车环境下车辆典型行为识别方法研究[D];长安大学;2015年
7 金泽豪;并行化的人体行为识别方法研究与实现[D];华南理工大学;2015年
8 王呈;穿戴式多传感器人体日常活动监测系统设计与实现[D];南京理工大学;2015年
9 王露;基于稀疏时空特征的人体行为识别研究[D];苏州大学;2015年
10 于静;基于物品信息和人体深度信息的行为识别研究[D];山东大学;2015年
,本文编号:2019450
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2019450.html