基于DPC算法混合属性数据流聚类研究
发布时间:2020-12-21 01:04
聚类分析是数据挖掘领域一项重要的研究课题。随着大数据时代的到来,数据流在很多领域得到应用,数据流聚类也成为一项意义深远而且具有挑战性的技术。与传统的静态数据相比,数据流是高速的、动态的、变化的。数据流的这些特性,给数据流聚类带来了困难。此外数据流的高维性、混合属性和海量性等特征对数据流聚类提出了更高的要求。本文将针对以上问题展开研究,提出适应数据流特性且有效处理数据流高维性、混合属性和海量性等问题的数据流聚类算法。本文包括以下四个方面内容:第一,讨论数据流聚类相关问题,概述数据流的特点和数据流处理模型,比较分析数据流聚类方法;第二,研究混合属性数据处理过程,针对数据流的特点进行数值型数据标准化、高维数据降维和混合属性数据度量方法的讨论;第三,针对DPC算法无法处理混合属性数据、截断距离的选取影响密度的计算和无法处理大规模数据三个方面的不足,分别提出基于信息熵的混合属性数据处理方法改进DPC算法的距离值计算、采用KNN非参数核密度估计方法改进DPC算法的密度值计算和将滑动窗口技术和DPC算法相结合,实现混合属性数据流聚类;第四,采用DPC改进算法对KDDCup99网络入侵检测数据集进行聚...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
研究技术路线图
第三章 混合属性数据流处理过程第三章 混合属性数据流处理过程区别于单一数据类型的数据流,混合属性数据流包含数值型数据和分类型数据,因此混合属性数据流的处理过程也与单一数据类型的数据流的处理过程不相同。首先数据流中数据型数据的量纲不一致,导致数据之间不具备可比性,因此需要对数据流中数据值型数据进行标准化处理,消除数值属性的量纲和变异大小因素的影响。然后数据流具有高维性,高维数据包含大量的冗余信息,增加了计算和空间的开销,因此为了避免维数灾难,需要对数据流中数据值型数据进行降维处理,去除冗余信息,提高计算效率。最后数据流中具有混合属性数据,单一数据类型的处理方法已经不再适用,因此需要对混合属性数据进行有效的距离度量。混合属性数据流的处理过程如图 3-1 所示。
距离 可定义为: (4中局部密度最大点 ,可定义其距离为: 近点 表示 S 中所有局部密度(排序意义下)比 大的数据点中与 距离最的编号,具体定义为: { (于 S 中每个数据点 ,可计算得( , ), 。根据局部密度值 与距离类中心。对于聚类中心的选择,需满足两个条件:(1)聚类中心点的密度近邻数据点;(2)与任意密度较高的数据点距离较远。
【参考文献】:
期刊论文
[1]基于滑动窗口的进化数据流聚类[J]. 常建龙,曹锋,周傲英+. 软件学报. 2007(04)
博士论文
[1]数据流聚类分析算法[D]. 曹锋.复旦大学 2006
硕士论文
[1]基于快速搜索密度的数据流聚类算法[D]. 李艳文.兰州大学 2016
[2]基于信息熵的高维数据流聚类及其应用研究[D]. 杨庭庭.重庆交通大学 2015
[3]一种适应高速数据流的聚类算法研究[D]. 高贺庆.湖南大学 2013
本文编号:2928894
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
研究技术路线图
第三章 混合属性数据流处理过程第三章 混合属性数据流处理过程区别于单一数据类型的数据流,混合属性数据流包含数值型数据和分类型数据,因此混合属性数据流的处理过程也与单一数据类型的数据流的处理过程不相同。首先数据流中数据型数据的量纲不一致,导致数据之间不具备可比性,因此需要对数据流中数据值型数据进行标准化处理,消除数值属性的量纲和变异大小因素的影响。然后数据流具有高维性,高维数据包含大量的冗余信息,增加了计算和空间的开销,因此为了避免维数灾难,需要对数据流中数据值型数据进行降维处理,去除冗余信息,提高计算效率。最后数据流中具有混合属性数据,单一数据类型的处理方法已经不再适用,因此需要对混合属性数据进行有效的距离度量。混合属性数据流的处理过程如图 3-1 所示。
距离 可定义为: (4中局部密度最大点 ,可定义其距离为: 近点 表示 S 中所有局部密度(排序意义下)比 大的数据点中与 距离最的编号,具体定义为: { (于 S 中每个数据点 ,可计算得( , ), 。根据局部密度值 与距离类中心。对于聚类中心的选择,需满足两个条件:(1)聚类中心点的密度近邻数据点;(2)与任意密度较高的数据点距离较远。
【参考文献】:
期刊论文
[1]基于滑动窗口的进化数据流聚类[J]. 常建龙,曹锋,周傲英+. 软件学报. 2007(04)
博士论文
[1]数据流聚类分析算法[D]. 曹锋.复旦大学 2006
硕士论文
[1]基于快速搜索密度的数据流聚类算法[D]. 李艳文.兰州大学 2016
[2]基于信息熵的高维数据流聚类及其应用研究[D]. 杨庭庭.重庆交通大学 2015
[3]一种适应高速数据流的聚类算法研究[D]. 高贺庆.湖南大学 2013
本文编号:2928894
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2928894.html