基于弹性分布式数据集的流数据聚类分析
发布时间:2017-05-12 19:07
本文关键词:基于弹性分布式数据集的流数据聚类分析,,由笔耕文化传播整理发布。
【摘要】:随着互联网应用的普及和深入,其所产生的数据急剧膨胀,且其中许多数据都是动态的流式数据,需要及时处理和分析。对于流数据的聚类分析,国内外学者已进行了许多探索和研究,目前已存在一些可用的流数据聚类算法,但这些算法仍然普遍存在诸多问题,例如,不能反映流数据的演化过程、无法识别任意形状的聚簇、对海量数据的聚类效率不理想等等。近年来,随着各种新型并行计算平台的出现和不断完善,聚类分析在并行计算平台上的实现得到了广泛的关注和认可,为提高聚类效率提供了新的有效的途径。例如,Spark平台上的K-Means Streaming流数据聚类分析算法。但是,由于Spark平台的发展历史相对较短,其上的流数据聚类分析算法的实现尚不多见,我们仅发现上述一例。本文对经典的基于密度的聚类算法DBSCAN算法作了改进,提出了基于网格思想的聚类算法GDBSCAN,在保留DBSCAN算法可以挖掘任意形状聚簇的特性的前提之下,降低了其时间复杂度。其次,通过数据点有效时间的概念反映流数据的演化过程,结合Spark的RDD内存计算的优势,给出了GDBSCAN算法的Spark并行化实现RDDGD-Stream,用于实时高效地对流数据进行聚类分析。此外,为了进一步提高算法的效率,RDDGD-Stream算法还设计了基于网格数据点数目的重分区方法,平衡集群各节点的计算负载。为了检验GDBSCAN和RDDGD-Stream算法的有效性,我们设计了多组实验,从聚类效率(运行时间和加速比)、演化性、聚类质量等多个方面加以考察。实验结果表明GDBSCAN和RDDGD-Stream算法的执行效率有明显的提高,聚类质量也有一定程度的提高。
【关键词】:数据挖掘 流数据 聚类 DBSCAN Spark
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要6-7
- ABSTRACT7-12
- 第1章 绪论12-16
- 1.1 研究背景12
- 1.2 流数据挖掘的研究现状12-14
- 1.2.1 研究成果12-13
- 1.2.2 存在的问题13-14
- 1.3 本文的主要研究内容14-15
- 1.4 本文结构15-16
- 第2章 聚类分析概述16-27
- 2.1 数据挖掘技术16-18
- 2.1.1 数据挖掘的概念16
- 2.1.2 数据挖掘的过程16-18
- 2.2 流数据挖掘18-19
- 2.2.1 流数据的定义及特点18
- 2.2.2 流数据挖掘的特点18-19
- 2.3 一般聚类分析概述19-22
- 2.3.1 聚类分析的概念20
- 2.3.2 聚类分析算法20-22
- 2.4 流数据聚类分析22-26
- 2.4.1 流数据聚类分析的要求22-23
- 2.4.2 流数据聚类分析算法23-26
- 2.5 本章小结26-27
- 第3章 Spark计算平台27-38
- 3.1 云计算概述27-29
- 3.1.1 云计算的概念27
- 3.1.2 云计算的核心技术27-28
- 3.1.3 MapReduce编程模型28-29
- 3.2 Spark分布式计算平台29-37
- 3.2.1 Spark框架概述30-31
- 3.2.2 弹性分布式数据集(Resilient Distributed dataset,RDD)31-33
- 3.2.3 Spark工作机制详解33-36
- 3.2.4 Shuffle机制36-37
- 3.3 本章小结37-38
- 第4章 RDDGD-Stream算法的设计与实现38-56
- 4.1 网格和密度38-40
- 4.2 RDDGD-Stream算法的总体框架40-41
- 4.3 数据空间的初始划分41-43
- 4.3.1 初始划分的基本思路41-42
- 4.3.2 初始划分的实现42-43
- 4.4 基于有效时间的数据淘汰算法43-46
- 4.4.1 算法思路44-45
- 4.4.2 算法实现45-46
- 4.5 基于网格数据点数目的重分区算法46-47
- 4.5.1 重分区算法的基本思路46
- 4.5.2 重分区算法的实现46-47
- 4.6 DBSCAN算法的优化47-55
- 4.6.1 DBSCAN算法分析48-50
- 4.6.2 基于网格的DBSCAN算法——GDBSCAN50-52
- 4.6.3 GDBSCAN算法的并行化思路52-53
- 4.6.4 GDBSCAN算法的并行化实现53-55
- 4.7 本章小结55-56
- 第5章 实验与实验结果分析56-67
- 5.1 GDBSCAN算法的实验设计与结果分析56-59
- 5.1.1 实验环境与数据准备56
- 5.1.2 等分倍数分析56-57
- 5.1.3 加速比分析57-59
- 5.2 RDDGD-Stream算法的实验设计与结果分析59-66
- 5.2.1 实验环境与数据准备59-63
- 5.2.2 演化性测试63-64
- 5.2.3 聚类质量对比测试64
- 5.2.4 聚类效率对比测试64-66
- 5.3 本章小结66-67
- 第6章 总结与展望67-69
- 6.1 总结67-68
- 6.2 展望68-69
- 参考文献69-72
- 攻读硕士学位期间发表的论文72-73
- 致谢73
【参考文献】
中国期刊全文数据库 前1条
1 李敏;李英梅;;数据流聚类算法研究[J];智能计算机与应用;2014年01期
本文关键词:基于弹性分布式数据集的流数据聚类分析,由笔耕文化传播整理发布。
本文编号:360584
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/360584.html