当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视频内容识别技术研究

发布时间:2018-05-12 07:51

  本文选题:视频内容识别 + 深度学习 ; 参考:《电子科技大学》2017年硕士论文


【摘要】:随着互联网和4G网络技术的发展和普及,以及Facebook、Instagram和Snapchat等主流社交网络对视频业务的重视与推广,网络视频业务呈蓬勃发展趋势。然而,不断增长的视频数量和用户群体,以及丰富多样的视频内容,却给视频内容的监督和管理提出了巨大的挑战。得益于深度学习在智能识别方面取得的突破性进展,基于深度学习的视频内容识别技术逐渐成为视频内容识别和分析的主要技术,因此,本文以深度学习为基础,通过引入注意力机制,充分利用视频的时间特性,研究准确高效的视频内容识别技术。视频内容识别技术的关键在于视频特征的提取,而深度学习的优势在于其强大的特征提取能力,为了进一步研究基于深度学习的视频内容识别技术,论文的主要工作如下:首先,结合人类视觉感知方面的研究,以及LRCN模型在视频内容识别的优势,提出基于注意力机制的LRCN模型,在深度学习模型中模拟人脑的注意力特性,从全局考虑视频内容,使模型的注意力落在整个视频的有效区域,降低无关信息对视频内容识别的干扰。基于注意力机制的LRCN模型通过选择性的注意力权重,为与视频主题相关的区域分配较大的权重,无关的区域分配较小的权重,提取具有区分性的时间特征。然后,为充分利用视频的时间特性,采用BLSTM网络捕捉视频内容的上下文信息,提取更丰富的时间特征,提出基于BLSTM网络的LRCN模型。基于BLSTM网络的LRCN模型通过提取正向和反向的时间特征,充分利用视频的时间信息识别视频内容。最后,采用Tensorflow深度学习开源框架对基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型进行了仿真验证,实验数据采用HMDB-51和UCF-101视频内容识别数据集。实验表明,本文提出的基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型可以有效提高视频内容识别的准确率,并且基于BLSTM网络的LRCN模型在训练时能够快速收敛,提高模型训练效率,同时,本文还对基于注意力机制的LRCN模型的注意力权重进行了可视化,分析注意力权重对视频内容识别的影响。
[Abstract]:With the development and popularization of Internet and 4G network technology, as well as the attention and promotion of video services by mainstream social networks such as Facebook Instagram and Snapchat, the network video business is booming. However, the increasing number of video and users, as well as rich and diverse video content, has posed a great challenge to the supervision and management of video content. Because of the breakthrough of deep learning in intelligent recognition, video content recognition technology based on deep learning has gradually become the main technology of video content recognition and analysis. By introducing attention mechanism and making full use of the time characteristic of video, the accurate and efficient video content recognition technology is studied. The key of video content recognition is the extraction of video features, and the advantage of depth learning lies in its powerful feature extraction ability. In order to further study the video content recognition technology based on deep learning, The main work of this paper is as follows: firstly, combining the research of human visual perception and the advantages of LRCN model in video content recognition, a LRCN model based on attention mechanism is proposed to simulate the attention characteristics of human brain in the deep learning model. Considering the video content globally, the model can focus on the effective region of the whole video, and reduce the interference of irrelevant information to the video content recognition. The LRCN model based on attention mechanism assigns a large weight to the region related to the video topic and a small weight to the irrelevant region through the selective attention weight to extract the distinguishing time feature. Then, in order to make full use of the time characteristics of video, the BLSTM network is used to capture the context information of video content, and to extract more abundant time features, a LRCN model based on BLSTM network is proposed. The LRCN model based on BLSTM network can extract forward and reverse time features and make full use of the time information of video to recognize video content. Finally, the LRCN model based on attention mechanism and the LRCN model based on BLSTM network are simulated and verified by Tensorflow deep learning open source framework. The experimental data are based on HMDB-51 and UCF-101 video content recognition data set. Experiments show that the proposed LRCN model based on attention mechanism and the LRCN model based on BLSTM network can effectively improve the accuracy of video content recognition, and the LRCN model based on BLSTM network can converge rapidly in training. At the same time, the attention weight of LRCN model based on attention mechanism is visualized, and the influence of attention weight on video content recognition is analyzed.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41;TP181

【相似文献】

相关期刊论文 前3条

1 李绍华;冯晶莹;楼偶俊;景雨;;基于Contourlet变换和神经网络的视频水印算法[J];电脑知识与技术;2014年11期

2 张庆涛;;网络视音频系统前台界面设计与实现[J];电脑知识与技术;2014年11期

3 ;Datavideo TV-1000HD/SD虚拟视频抠像系统[J];影视制作;2014年04期

相关博士学位论文 前4条

1 伍博;基于显著性的视觉目标跟踪研究[D];电子科技大学;2017年

2 杨超宇;基于计算机视觉的目标检测跟踪及特征分类研究[D];中国矿业大学(北京);2017年

3 谢利萍;基于视频的人脸表情识别[D];东南大学;2017年

4 南国顺;信息中心网络的服务提供机制和优化研究[D];北京邮电大学;2017年

相关硕士学位论文 前10条

1 何庆强;基于深度学习的视频内容识别技术研究[D];电子科技大学;2017年

2 汪恭焰;基于对象的动态视频浓缩和检索技术研究[D];长春理工大学;2017年

3 杨泽忠;微信小视频中的人脸识别关键技术研究[D];海南大学;2017年

4 冯亚洲;基于Hadoop的电力视频大数据分布式检索系统设计与实现[D];南京邮电大学;2017年

5 王宇生;基于视频内容的衣服识别方法研究[D];哈尔滨工业大学;2017年

6 张亚洲;视频摘要的算法研究[D];杭州电子科技大学;2017年

7 曹爽;基于多目摄像头拼接视频的目标跟踪研究[D];电子科技大学;2017年

8 华泽月;面向老年人走失问题的第一人称视角视频摘要研究[D];哈尔滨工业大学;2017年

9 董胜;基于人脸区域特征相关性的视频流人脸识别系统设计与实现[D];华中师范大学;2017年

10 庾晶;运动视频标注算法研究[D];南京邮电大学;2017年



本文编号:1877770

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1877770.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0bd4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com