基于网格耦合的数据流聚类与异常检测
发布时间:2021-09-30 22:57
数据流是一种数据序列,它能够随时间增加而顺序、快速、大量、连续到达。近年来,随着互联网以及软硬件的发展越来越多的数据流产生在各行各业,使得数据流逐渐成为一种主流的数据形式。这些数据流中隐藏着许多有趣的知识和规律,如果挖掘出来并加以利用能够对人们的决策起到重要的指导和参考作用。但是不同于以往的静态数据,数据流具有无限性、时序性、演变性、高维性、时间局部性等特点,使得传统数据挖掘算法不能直接移植到数据流中。所以如何在这些海量的数据流中挖掘有用的信息,辅助人们决策,是一个具有挑战性的问题并且受到了广泛关注。数据流聚类与异常检测是数据流挖掘领域中的两个重要研究分支。数据流聚类是一个将不断到达的数据流按其相似性划分为若干簇的过程。而数据流异常检测是为了找出数据流中偏离正常值的异常数据。为了能够快速处理数据流,现有数据流聚类和异常检测算法大都采用网格结构汇总数据流。但是在将数据流映射到网格并增量更新时,它们都忽略了网格之间的相互影响,假设网格之间相互独立。这样的处理方式造成提取的数据流概要信息不够精确,直接影响了数据流聚类和异常检测算法的精度。为了解决上述问题,本文主要有四个方面的工作:第一,提出...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图3.2网格4中映射数据对象对网格3和网格6的影响??
成的簇与&和g,构成的簇合并。??3.2.2?GCStream-CL?算法框架??GCStream-CL算法的流程如图3.3所示,分为在线和离线两部分。在线阶段根??据数据流中数据对象的属性创建相应网格,并将不断到达的数据对象映射到网格??中。如果网格中新加入了数据对象,则更新受影响的网格的权重、质心等,并实时??更新核心网格。除此之外,GCStream-CL算法在线阶段会周期性检测及删除噪声??网格。离线阶段,GCStream-CL算法通过搜索与核心网格密度相连的网格完成聚??类,并根据核心网格的变动追踪簇的变化。本文算法中每个步骤详细介绍如下:??20??
并且距离大部分数据较远时,其为异常的可能性最大。如果一个网格密??度较高、距离大部分数据较远或者网格密度较低、距离大部分数据较近,则其为异??常的可能性都不会高。^时刻进行异常检测,经过剪枝后的数据分布如图3.5所示。??图中五角星表示每个网格的质心位置。值得注意的是,网格3为核心网格,是当前??时刻数据空间中一组密度相连网格的中心,所以本文以其质心代表未剪枝时数据??空间中大部分数据对象所处的位置。网格7周围数据量较少,其密度比较低,但是??26??
本文编号:3416790
【文章来源】:云南大学云南省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图3.2网格4中映射数据对象对网格3和网格6的影响??
成的簇与&和g,构成的簇合并。??3.2.2?GCStream-CL?算法框架??GCStream-CL算法的流程如图3.3所示,分为在线和离线两部分。在线阶段根??据数据流中数据对象的属性创建相应网格,并将不断到达的数据对象映射到网格??中。如果网格中新加入了数据对象,则更新受影响的网格的权重、质心等,并实时??更新核心网格。除此之外,GCStream-CL算法在线阶段会周期性检测及删除噪声??网格。离线阶段,GCStream-CL算法通过搜索与核心网格密度相连的网格完成聚??类,并根据核心网格的变动追踪簇的变化。本文算法中每个步骤详细介绍如下:??20??
并且距离大部分数据较远时,其为异常的可能性最大。如果一个网格密??度较高、距离大部分数据较远或者网格密度较低、距离大部分数据较近,则其为异??常的可能性都不会高。^时刻进行异常检测,经过剪枝后的数据分布如图3.5所示。??图中五角星表示每个网格的质心位置。值得注意的是,网格3为核心网格,是当前??时刻数据空间中一组密度相连网格的中心,所以本文以其质心代表未剪枝时数据??空间中大部分数据对象所处的位置。网格7周围数据量较少,其密度比较低,但是??26??
本文编号:3416790
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3416790.html