基于卷积神经网络的视频语义概念分析
本文关键词:基于卷积神经网络的视频语义概念分析
更多相关文章: 视频语义分析 卷积神经网络 稀疏线性解码器 拓扑约束 关键帧 池化
【摘要】:近年来,随着多媒体技术的日新月异,视频语义概念检测成了大家日益关注的研究热点。而在多媒体数据中,视频相比较于其他数据所包含的信息更加的复杂,如何很好的得到每个视频所包含的语义概念,并将其作为视频合适的标签也就成为了视频检索领域中的重点和难点。本文首先介绍传统的视频语义分析方法,其次详细介绍深度学习中几种模型,并讨论以往视频语义分析方法存在的问题;再次主要介绍本文所提出的视频语义概念分析方法,并验证方法的有效性,且简单介绍原型系统的构建;最后讨论视频语义概念分析领域将来的研究方向。本文的主要内容如下:(1)提出基于拓扑模型预训练卷积神经网络的视频语义概念分析方法卷积神经网络可以自适应提取输入数据中的分布式表征,通过构建不同的操作层,将原始数据进行低层级特征提取,并进行高层的变换从而得到更复杂且更具鲁棒性的特征。针对该模型需要较多的有标签数据,且为了进一步提升模型对视频图像帧中目标的旋转、缩放、平移等不变性,首先将拓扑约束引入到稀疏线性解码器模型中提出一种拓扑线性解码器模型,将该模型作为卷积神经网络的预训练模型,然后用较少的有标签关键帧对该模型进行微调,从而得到针对视频数据集的卷积神经网络特征提取模型,最后将提取的特征输送到支持向量机中做进一步的结果预测。实验结果表明,基于卷积神经网络的特征提取方法比传统的特征提取方法效果要好,而且在基于拓扑模型预训练的基础上效果有进一步的提升。(2)提出基于自适应阈值混合池化卷积神经网络的视频语义概念分析方法传统的卷积神经网络模型的池化层一般为最大池化或者平均池化,而最大池化因每次都是选取最大值,故而容易过拟合,而平均池化虽然考虑了整个池化区域的所有激活值,却极容易因池化区域中存在过小的激活值而使得池化的结果普遍偏小从而容易造成欠拟合。对此,本文提出自适应阈值混合池化的方法来代替传统的卷积神经网络池化层的池化方法。首先计算池化区域中每个激活值对应的贡献概率,并基于此作为每个激活值的权重求出该池化区域的激活值加权和,用其作为该池化区域的阈值,将大于该阈值的激活值予以保留,并对保留的激活值做平均操作从而得到最后的池化结果。实验结果表明,该方法相比传统的最大池化和平均池化方法能够更进一步的提高视频语义分类的准确率。(3)设计并实现基于卷积神经网络模型的视频语义分析原型系统基于程序模块化的设计理念,采用Python、CUDA以及Theano和Numpy库作为系统的核心算法开发,PyQt作为原型系统界面的开发,设计并实现数据预处理、模型构建与训练、语义检测三大模块,验证了本文所提的视频语义概念检测方法的可用性。
【关键词】:视频语义分析 卷积神经网络 稀疏线性解码器 拓扑约束 关键帧 池化
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TP183
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第1章 绪论11-18
- 1.1 课题研究背景及意义11-13
- 1.1.1 课题研究背景11-12
- 1.1.2 课题研究意义12-13
- 1.2 视频语义概念分析的研究现状13-15
- 1.3 论文研究的主要内容15-16
- 1.4 论文的内容安排16-18
- 第2章 基于深度学习的视频语义概念研究18-32
- 2.1 前馈神经网络19-21
- 2.2 自动编码器21-22
- 2.3 稀疏自动编码器22-24
- 2.4 卷积神经网络24-30
- 2.4.1 卷积操作的本质25-26
- 2.4.2 卷积操作的意义26-28
- 2.4.3 池化操作28-30
- 2.5 深度学习在视频语义上的应用现状30-31
- 2.6 本章小结31-32
- 第3章 基于拓扑线性解码器预训练卷积神经网络的视频语义概念分析32-52
- 3.1 基于卷积神经网络的视频语义概念特征提取模型32-35
- 3.2 拓扑线性解码器35-42
- 3.2.1 基于能量依赖的拓扑约束35-37
- 3.2.2 模型结构37-40
- 3.2.3 权重可视化40-42
- 3.3 视频特征深度学习模型的训练42-46
- 3.3.1 预训练原理42-44
- 3.3.2 视频特征深度学习模型的训练步骤44-46
- 3.4 实验结果与分析46-51
- 3.4.1 参数的选取47-49
- 3.4.2 Trecvid数据集上的实验结果49-50
- 3.4.3 UCF11数据集上的实验结果50-51
- 3.5 本章小结51-52
- 第4章 基于自适应阈值混合池化卷积神经网络的视频语义概念分析52-63
- 4.1 常用的池化方法52-57
- 4.1.1 最大池化55-56
- 4.1.2 平均池化56-57
- 4.2 基于自适应阈值的混合池化57-59
- 4.3 实验结果与分析59-62
- 4.3.1 TRECVID视频数据集实验数据比较与分析61
- 4.3.2 UCF11视频数据集实验数据比较与分析61-62
- 4.4 本章小结62-63
- 第5章 视频语义分析原型系统设计与实现63-73
- 5.1 系统开发工具63-64
- 5.2 原型系统的框架结构64-65
- 5.3 原型系统的算法实现概况65-69
- 5.3.1 视频数据的预处理65-67
- 5.3.2 模型的构建及训练67-68
- 5.3.3 语义概念检测68-69
- 5.4 原型系统的界面介绍69-72
- 5.5 本章小结72-73
- 第6章 总结与展望73-75
- 6.1 总结73-74
- 6.2 展望74-75
- 参考文献75-82
- 致谢82-83
- 攻读硕士学位期间已发表的论文83
【相似文献】
中国期刊全文数据库 前10条
1 魏维;魏敏;刘凤玉;;概念间关联依赖多标记视频语义概念分类方法[J];中国图象图形学报;2010年06期
2 潘润华;詹永照;;基于负样本精简概念格规则的语义概念检测[J];计算机工程;2011年23期
3 万建平;高毫林;李弼程;;一种基于证据融合的视频语义概念检测方法[J];信息工程大学学报;2011年03期
4 白亮;老松杨;侯小强;刘海涛;卜江;;一个知识辅助的视频语义概念探测框架[J];国防科技大学学报;2012年04期
5 万建平;彭天强;李弼程;;基于证据理论的视频语义概念检测[J];数据采集与处理;2011年05期
6 魏维;邹书蓉;刘凤玉;;多层视频语义概念分析与理解[J];计算机辅助设计与图形学学报;2008年01期
7 李昕,洪文学,宋佳霖,李长吾;一种车辆舒适度传感器语义概念生成方法研究[J];仪器仪表学报;2005年S1期
8 张映海;何中市;;基于关键词与语义概念结合的信息检索研究[J];计算机应用;2006年12期
9 张瑞杰;李弼程;魏晗;;基于LSI和软加权的视频语义概念检测[J];信息工程大学学报;2013年02期
10 杨建武,万小军;基于语义拓扑网的反馈学习技术[J];计算机工程;2005年01期
中国重要会议论文全文数据库 前4条
1 张辉;朱俊武;;基于P2P的语义Web服务发现模型研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 陈子晨;;“身”的概念结构及与中国传统身体观的联系[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
3 戴乐;;英文导游翻译中的语义重构问题[A];福建省外国语文学会2004年会论文集[C];2004年
4 李昕;洪文学;宋佳霖;李长吾;;一种车辆舒适度传感器语义概念生成方法研究[A];第三届全国信息获取与处理学术会议论文集[C];2005年
中国博士学位论文全文数据库 前4条
1 张瑞杰;基于局部语义概念表示的图像场景分类技术研究[D];解放军信息工程大学;2013年
2 邝砾;基于接口和行为语义的Web服务发现与适配研究[D];浙江大学;2009年
3 李晓文;从认知语言学视角研究Dao(道/Way)的多义性及其拓展的语义概念形成[D];上海外国语大学;2012年
4 潘伟森;多维语义感知的Web服务社会建模及关键问题研究[D];天津大学;2013年
中国硕士学位论文全文数据库 前10条
1 张东香;基于多重语义的词典管理方法和实现[D];江苏科技大学;2015年
2 张强;基于机器翻译的中文语义解析[D];东南大学;2015年
3 詹智财;基于卷积神经网络的视频语义概念分析[D];江苏大学;2016年
4 孔玮婷;基于高斯混合模型视觉特征的视频语义概念检测技术研究[D];江苏大学;2016年
5 李颖芳;语义Web服务发现问题研究[D];昆明理工大学;2012年
6 辛昕;语义Web技术在电子政务系统中的研究与应用[D];北京邮电大学;2006年
7 郭富禄;面向OWL-S服务搜索的语义条件表达式及其处理机制的研究[D];湖南工业大学;2014年
8 王带弟;客观知识体系中的语义传递模型研究[D];大连理工大学;2009年
9 荆延国;一个基于图像中语义对象的图文双向查阅系统的设计与实现[D];大连海事大学;2000年
10 王刚;基于疾病表型的基因语义相似性分析与应用[D];西安电子科技大学;2012年
,本文编号:570622
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/570622.html