基于多时间尺度双流CNN和度量学习的视频语义概念检测

发布时间：2021-07-25 14:10

　　随着智能携带设备的兴起所引来的自媒体时代的高速发展,用户在网络上记录、观看和分享视频成为了人们在日常生活中用来表达和传递情感的不可或缺的方式之一。活跃在日常生活中的视频数据一方面给人们带来便利,另一方面若监管不严,肆意传播不良视频内容也会给社会大众尤其是青少年人群产生恶劣的影响。在面对数量迅猛增加的海量网上视频、图像等多媒体数据,如何甄别视频序列内容,实现视频语义概念建模从而对视频合理分类成为计算机视觉领域的热点研究课题之一,无论在民用领域还是在军用领域都有及其广泛的应用,得到了国内外众多研究者的关注。本文经过研究了国内外大量文献基础上,首先介绍视频语义概念检测领域的研究背景、意义以及国内外研究现状,其次,介绍了几种深度学习网络模型,简述了视频语义概念检测技术的相关知识。针对视频语义概念检测技术中所存在的问题,重点研究和提出多时间尺度双流CNN与置信融合的视频动作语义检测方法和结合多时间尺度双流CNN和度量学习的视频语义概念检测方法,并且为验证本文所提出的方法在视频语义概念分析任务中的实用性,设计实现了视频语义概念检测原型系统。本文的主要工作内容具体如下:（1）为解决过分依赖背景和外貌...

【文章来源】：江苏大学江苏省

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

传统视频语义概念分析方法流程

示意图,卷积,神经网络,示意图

江苏大学工程硕士学位论文92.2卷积神经网络卷积神经网络（ConvolutionalNeuralNetwork，CNN）是深度学习技术中最具代表性的网络结构之一，广泛应用于人工智能领域。卷积神经网络是受到大脑处理信息时生物神经网络工作方式的启发而得到的产物。DHHubel和TNWiesel[28]在20世纪五十年代末和六十年代初对哺乳动物大脑的研究提出了哺乳动物在视觉上感知世界的层级处理机制以及神经元感受野的概念。1980年，Fukushima教授受前期研究的启发，提出了拥有平移和扭曲不变性的分层神经网络模型，被认为是卷积网络的最早实现。最具里程碑代表性的卷积神经网络是LeCun[29]等人于1988年提出的用于手写数字识别的LeNet-5卷积神经网络，图像自输入层依次经历卷积层和池化层，最终由全连接层输出并分类。相对于传统的MLP，CNN最大的特点是使用了卷积这一特殊线性运算，可直接处理多维数据，在目标检测、图像分类、情感分析等方向的计算机视觉任务中均更具优势。图2.1卷积神经网络结构示意图典型的卷积神经网络概念结构如图2.1所示，其主要包括三部分：卷积层、池化层和全连接层。数据进入卷积神经网络后，卷积后得到特征图，之后经由最大池化或者平均池化降低参数量，最后经由全连接层整合全局特征并由分类器分类。2.2.1卷积层卷积神经网络的核心算法是卷积运算，这一特殊的线性数学运算替代了传统的矩阵乘积运算，是通过两个函数生成第三个函数的一种数学算子。连续卷积的数学公式为：

示意图,卷积,二维,卷积核

基于多时间尺度双流CNN和度量学习的视频语义概念检测10f*gnfgn（2.1）拓展到离散域，对应的数学公式为：f*gnfgn（2.2）在神经网络中，卷积的运算是对两个矩阵进行的。对于输入一组图像，卷积对图像点上的像素灰度值与对应的卷积核上的数值相乘。其中卷积核通常是一个nm的带着一组固定权重的矩阵。利用不同的卷积核可以得到不同的特征。训练网络的实质是学习得到卷积核的参数，让这些卷积核将原始输入空间投向线性可分、稀疏的空间去分类、回归。卷积层通过卷积核对图像数据或特征图（FeatureMap）进行卷积操作，可表示为：kkkijijHWXb（2.3）其中，kijH表示输入元素i,j经卷积输出的第k个特征向量，k1,,K表示神经元索引，kW和kb代表第k个卷积核和偏置，X表示输入的图像数据或特征图，表示二维空间卷积。具体的卷积操作如图2.2所示：首先二维滤波器滑动到二维图像上所有位置，对应元素与核相乘，然后将所有值相加，最后得到二维的激活图。图2.2二维卷积示意图

【参考文献】：
期刊论文
[1]深度度量学习综述[J]. 刘冰,李瑞麟,封举富.  智能系统学报. 2019(06)
[2]角点检测与光流跟踪的焊缝特征提取与定位研究[J]. 林少铎,高向东,黎扬进,张南峰,全方红.  机电工程. 2019(04)
[3]人工智能技术在无人驾驶中的应用[J]. 孙嘉蔚.  科技传播. 2019(06)
[4]伪标签置信选择的半监督集成学习视频语义检测[J]. 尹玉,詹永照,姜震.  计算机应用. 2019(08)
[5]计算机视觉中相似度学习方法的研究进展[J]. 王法强,张宏志,王鹏,邓红,张大鹏.  智能计算机与应用. 2019(01)
[6]论短视频发展对社会意识的影响——以抖音为例[J]. 丛丽涵,史雄,刘钰薇.  传播力研究. 2019(01)
[7]基于时空域深度特征两级编码融合的视频分类[J]. 智洪欣,于洪涛,李邵梅.  计算机应用研究. 2018(03)
[8]数据驱动的图像智能分析和处理综述[J]. 汪淼,张方略,胡事民.  计算机辅助设计与图形学学报. 2015(11)
[9]视频镜头分割算法综述[J]. 刘艳红.  科技创新与应用. 2014(16)

本文编号：3302176

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3302176.html

上一篇：高动态范围视频图像质量评价
下一篇：前列腺核磁共振图像分割算法的研究与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|