基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用
本文关键词:基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用,,由笔耕文化传播整理发布。
【摘要】:数据挖掘技术帮助人们从众多含有噪音的数据里挖掘出对人们存在价值的信息。然而由于数据集具有噪声和冗余性,因此包含的数据信息以及涉及的概念本身存在着不确定性和不精确性。粗糙集理论(Rough Sets)是用来解决不确定性问题的有力工具之一。它的核心问题之一就是对属性约简算法的研究。传统的属性约简算法并不适用于大规模数据处理,因此如何将传统属性约简算法应用于海量数据成为一个值得研究的问题。相比于Hadoop, Spark是性能更加优越的开源云计算框架,目前已经被广泛采纳。本文将基于该平台来处理海量数据。基于决策粗糙集理论通过引入边界域能有效地解决因为信息不足带来的决策错误率,符合人们在实际生活中的决策过程。目前对边界域一般是用户自行处理。当产生较大的边界域时,需要花费用户许多的时间。因此如何尽可能地减少边界域,同时保证算法的分类准确率成为一个值得探讨的问题。与传统属性约简算法一样,三支决策算法也面临在处理海量数据时效率不高的问题,因此如何将三支决策算法应用于海量数据分类也是我们关注的问题。三支决策算法作为代价敏感分类算法可以应用于此类问题中。视频异常检测由于将异常行为分类为正常所花的代价要比将正常行为分类为异常的代价大,同时正常行为与异常行为存在严重不平衡,因此视频异常检测既是一个代价敏感分类问题,又是一个不平衡分类问题,如何将三支决策算法应用于视频异常检测也是一个值得探讨的问题。本文分别针对上述的几个问题进行了深入研究,同时提出了改进方案,主要的工作如下:在三支决策分类预处理方法研究中,提出了基于Spark的快速并行粗糙集属性约简方法,该方法对传统属性约简算法RSAR进行了并行化,并在Spark上给予了实现。通过实验结果表明,并行化之后的算法能有效降低传统算法的运行时间。分析三支决策算法中边界域产生过大的原因,从而基于Tritraining的思想对原三支决策算法TWD进行改进,提出了一个集成分类器Tritraining-TWD。实验结果表明,Tritraining-TWD算法在分类精度和边界域个数要强于TWD算法。同时针对海量数据的问题,我们对三支决策算法TWD和集成分类算法Tritraining-TWD进行了并行化,分别提出PTWD和P-Tritraining-TWD算法。同样两个算法都在Spark上进行了实现。实验结果表明,并行化之后的算法能很好地提高算法的运行效率。采用并行LDA(Latent Dirichlet Allocation)算法对视频数据进行处理,将高维的运动特征转化为低维的语义特征。基于此,我们使用三支决策算法进行分类。我们改进了三支决策算法中的代价关系,使其能更加适用于视频异常检测问题。通过实验表明,与一般分类算法相比,三支决策算法在处理视频异常分类问题上具有比较好的优势,同时在改进后的代价关系的指导下,三支决策算法的的性能得到了一定的提升。
【关键词】:属性约简 三支决策理论 视频异常检测 并行化
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP18
【目录】:
- 摘要4-6
- Abstract6-13
- 第一章 绪言13-19
- 1.1 研究背景13-14
- 1.2 研究现状14-16
- 1.2.1 三支决策理论的研究14-15
- 1.2.2 视频异常检测的研究15
- 1.2.3 属性约简算法的研究15
- 1.2.4 待研究问题15-16
- 1.3 本文工作16-17
- 1.4 本文组织17-19
- 第二章 相关知识19-28
- 2.1 引言19
- 2.2 粗糙集19-21
- 2.2.1 决策表19
- 2.2.2 上下近似19-20
- 2.2.3 属性重要度20
- 2.2.4 粗糙集理论相关工作20-21
- 2.3 三支决策21-23
- 2.3.1 三支决策模型理论知识21-22
- 2.3.2 三支决策相关工作22-23
- 2.4 主题模型23-24
- 2.4.1 主题模型历史介绍23
- 2.4.2 主题模型理论知识23-24
- 2.4.3 主题模型相关应用24
- 2.5 Spark介绍24-27
- 2.5.1 Spark生态系统25
- 2.5.2 Spark核心概念25-26
- 2.5.3 Spark工作流程26-27
- 2.6 本章总结27-28
- 第三章 三支决策分类预处理:基于S park的快速并行属性约简算法28-41
- 3.1 引言28
- 3.2 RSAR:基于属性重要度的约简算法28-34
- 3.2.1 RS AR算法步骤及算法分析29-31
- 3.2.2 实验过程31-32
- 3.2.3 实验环境32-34
- 3.2.4 实验结果和分析34
- 3.3 PRSAR:基于S park的粗糙集并行属性约简算法34-40
- 3.3.1 PRSAR算法步骤及算法分析34-35
- 3.3.2 实验环境35-37
- 3.3.3 实验结果与分析37-40
- 3.4 本章总结40-41
- 第四章 基于Tritraining的三支决策分类方法及其并行化41-51
- 4.1 引言41
- 4.2 集成三支决策算法Tritraining-TWD的设计41-46
- 4.2.1 三支决策算法TWD41-42
- 4.2.2 集成三支决策算法Tritraining-TWD42-43
- 4.2.3 实验环境43-44
- 4.2.4 实验结果与分析44-46
- 4.3 基于Spark的并行化分类算法的设计46-50
- 4.3.1 PTWD算法和P-Tritraining-TWD算法设计46-48
- 4.3.2 实验环境48
- 4.3.3 实验结果与分析48-50
- 4.4 本章总结50-51
- 第五章 基于三支决策方法的视频异常检测应用51-60
- 5.1 引言51
- 5.2 视频异常检测的流程设计51-54
- 5.2.1 基于光流法的运动特征提取52-53
- 5.2.2 基于并行LDA的特征处理53
- 5.2.3 基于三支决策算法的行为分类53-54
- 5.3 实验设计与分析54-59
- 5.3.1 实验环境54
- 5.3.2 实验数据54-55
- 5.3.3 实验评估函数55-56
- 5.3.4 实验结果与分析56-59
- 5.4 本章总结59-60
- 第六章 总结与展望60-62
- 6.1 工作总结60-61
- 6.2 研究展望61-62
- 参考文献62-69
- 致谢69-70
- 简历与科研成果70-71
【参考文献】
中国期刊全文数据库 前10条
1 张里博;李华雄;周献中;黄兵;;人脸识别中的多粒度代价敏感三支决策[J];山东大学学报(理学版);2014年08期
2 ;Cooperative extended rough attribute reduction algorithm based on improved PSO[J];Journal of Systems Engineering and Electronics;2012年01期
3 钱进;苗夺谦;张泽华;;云计算环境下知识约简算法[J];计算机学报;2011年12期
4 侯北平;朱文;马连伟;介婧;;基于形状特征的移动目标实时分类研究[J];仪器仪表学报;2010年08期
5 肖大伟;王国胤;胡峰;;一种基于粗糙集理论的快速并行属性约简算法[J];计算机科学;2009年03期
6 吕跃进;刘南星;陈磊;;一种基于并行遗传算法的粗糙集属性约简[J];计算机科学;2008年03期
7 胡峰;王国胤;;属性序下的快速约简算法[J];计算机学报;2007年08期
8 孙亮,韩崇昭,康欣;多源遥感影像的集值特征选择与融合分类[J];电波科学学报;2004年04期
9 刘少辉,盛秋戬,吴斌,史忠植,胡斐;Rough集高效算法的研究[J];计算机学报;2003年05期
10 叶东毅,陈昭炯;一个新的差别矩阵及其求核方法[J];电子学报;2002年07期
本文关键词:基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用,由笔耕文化传播整理发布。
本文编号:328236
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/328236.html