基于多模型融合的短视频分类

发布时间:2021-11-17 13:40
  互联网上图像和短视频的规模日益庞大,快速有效的短视频自动分类算法能够帮助人们更加容易地找到感兴趣的视频内容。目前深度卷积网络模型是实现短视频的自动分类的有效方法,但是单模型的卷积网络存在泛化能力不强等不足。针对以上问题,本文研究了基于多模型融合的短视频分类方法,模型融合即通过不同组合策略将多个单一模型进行组合,最终输出预测结果。本文的主要工作如下:1.建立了短视频数据集。本数据集包含1200段不同行人的动作视频数据,共计6类:拳击(Boxing),鼓掌(Handclapping),挥手(Handwaving),慢跑(Jogging),跑步(Running)和步行(Walking)。每个类别包含了 200个视频样本,每个视频样本时长约15s,帧率为25fps,分辨率为128*128。按照5:3:2随机划分训练集、测试集和验证集。2.设计实现了用于短视频分类的3D卷积神经网络模型。该网络由输入层、三个卷积层、三个池化层、三个批量正则化(BN层)、两个全连接层及输出层组成,利用3D卷积核提取视频时间和空间信息。训练过程采用了数据增强、随机失活、自适应学习率等技术,所训练出的模型实现了 84.... 

【文章来源】:大连交通大学辽宁省

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于多模型融合的短视频分类


图2.1集成学习方法??Fig.2.1?Ensemble?learning?method??

特征图,特征提取,卷积


?第三章基于单个3D卷积神经网络的短视频分类???层是不算在卷积神经网络模型的总层数中。也就是说,上述模型是由三个卷积层和两个??全连接层组成,其中每个卷积层后都会添加一个激活层和池化层。模型每层的设置情况??如下所示:??输入层:在短视频输入后,对原始的图像帧进行预处理,产生多个通道的信息,再??将所有通道的信息结合形成特征描述。使用硬连接层(Hardwired),可以获得多种不同??类型的特征。??帧提取过程如图3.2所示,每帧图像提取五个通道的信息,分别是:灰度、x和y??方向的梯度,x和y方向的光流。其中,前面三个信息在每帧图像中都需要计算,水平??和垂直万向的光流场可以根据实际情况进行取舍。??Gradient-x??Gradienl-y????????????□??Icrey-tevel?S?B?°??hardwired?JJB??I?opt-f)〇w-xlHB?HHI??S?篇s?ass?as?…as??■?Opt-n〇w-yj|??图3.2帧特征提取结构??Fig.3.2?The?structure?of?frame?feature?extraction??卷积M:图3.1中C2和C4都是3D卷积层。卷积层由多个卷积核组成,每一个卷??积核相,亍一个滤波器,可以在图像上进行卷积操作,这一过程通常被称为图像的特征??提龋因此,图片每经过一个卷积核的卷积操作就会输出一个对应的特征图。每层卷积??核个数的设置通常和样本数据的大小,所要完成的训练任务有关,卷积核越多,意味着??后续得到的特征映射图就会越多,模型的非线性及容量也会增大,弊端是可能导致模型??难以训练,

特征图,卷积核,激活函数


?大连交通大学全日制专业硕士学位论文???如图3.3给出了?3D卷积核在视频图像帧中的采样方式:??I*?Time??4?^?-??4.??_喻??input?Layer?^?I?I?f?:*???■?{?^?'??^?vI&Tf?^i{?^?^?I?'f\?J??'\?\?\?\?\?'^?\?"??"V”??Latifude??Cotivohiiional?Layer??',?::i?i'v';'|?r??图3.3?3D卷积核??Fig.3.3?3D?convolution?kernel??激活层:卷积层的输出要经过激活函数。激活函数的作用是对输出结果进行非线性??映射,如果没有激活函数的非线性变换,那么神经网络的输出结果就是线性的堆叠,无??法对最终目标进行有效拟合。常见的激活函数有:Slgm〇1dlW、TanhW^PReW1^。本网??络采用Relu?(Rectified?Linear?Unit,修正线性单元)作为激活函数。选择Rehi是因为它??能够加快模型训练速度,使模型更快收敛。除此之外,Relu函数还能有效防止梯度弥散??的出现,因为当特征图中某个位置的灰度小于0,?Relu函数将其直接映射为0,防止结??果出现负数。当像素值大于零时,直接保留该点的灰度值,此时激活函数就相当于一个??线性函数。由于Rclu激活函数删除了一些对训练无效的参数,因此,有效缩短了模型??训练时间。??采样层:下采样S3层即Maxpoolmg,主要作用是对输出的特征映射进行下采样操??作。由于随着卷积层数的增加,模型需要逐渐抽象出具有高层语义的信息,这些信息最??终决定了图像的类别。因此,使用

【参考文献】:
期刊论文
[1]不同池化模型的卷积神经网络学习性能研究[J]. 刘万军,梁雪剑,曲海成.  中国图象图形学报. 2016(09)
[2]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航.  计算机应用. 2016(09)
[3]融合局部特征和全局特征的视频拷贝检测[J]. 王晶,王昊.  清华大学学报(自然科学版). 2016(03)
[4]基于卷积神经网络的连续语音识别[J]. 张晴晴,刘勇,潘接林,颜永红.  工程科学学报. 2015(09)
[5]一种多模态信息融合的视频检索模型[J]. 张静,俞辉.  计算机应用. 2008(01)
[6]集成学习:Boosting算法综述[J]. 于玲,吴铁军.  模式识别与人工智能. 2004(01)
[7]延拓矩阵的奇异值分解[J]. 邹红星,王殿军,戴琼海,李衍达.  科学通报. 2000(14)



本文编号:3501028

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3501028.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66559***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com