当前位置:主页 > 科技论文 > 软件论文 >

基于弹性分布式数据集的流数据聚类分析

发布时间:2017-05-12 19:07

  本文关键词:基于弹性分布式数据集的流数据聚类分析,,由笔耕文化传播整理发布。


【摘要】:随着互联网应用的普及和深入,其所产生的数据急剧膨胀,且其中许多数据都是动态的流式数据,需要及时处理和分析。对于流数据的聚类分析,国内外学者已进行了许多探索和研究,目前已存在一些可用的流数据聚类算法,但这些算法仍然普遍存在诸多问题,例如,不能反映流数据的演化过程、无法识别任意形状的聚簇、对海量数据的聚类效率不理想等等。近年来,随着各种新型并行计算平台的出现和不断完善,聚类分析在并行计算平台上的实现得到了广泛的关注和认可,为提高聚类效率提供了新的有效的途径。例如,Spark平台上的K-Means Streaming流数据聚类分析算法。但是,由于Spark平台的发展历史相对较短,其上的流数据聚类分析算法的实现尚不多见,我们仅发现上述一例。本文对经典的基于密度的聚类算法DBSCAN算法作了改进,提出了基于网格思想的聚类算法GDBSCAN,在保留DBSCAN算法可以挖掘任意形状聚簇的特性的前提之下,降低了其时间复杂度。其次,通过数据点有效时间的概念反映流数据的演化过程,结合Spark的RDD内存计算的优势,给出了GDBSCAN算法的Spark并行化实现RDDGD-Stream,用于实时高效地对流数据进行聚类分析。此外,为了进一步提高算法的效率,RDDGD-Stream算法还设计了基于网格数据点数目的重分区方法,平衡集群各节点的计算负载。为了检验GDBSCAN和RDDGD-Stream算法的有效性,我们设计了多组实验,从聚类效率(运行时间和加速比)、演化性、聚类质量等多个方面加以考察。实验结果表明GDBSCAN和RDDGD-Stream算法的执行效率有明显的提高,聚类质量也有一定程度的提高。
【关键词】:数据挖掘 流数据 聚类 DBSCAN Spark
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要6-7
  • ABSTRACT7-12
  • 第1章 绪论12-16
  • 1.1 研究背景12
  • 1.2 流数据挖掘的研究现状12-14
  • 1.2.1 研究成果12-13
  • 1.2.2 存在的问题13-14
  • 1.3 本文的主要研究内容14-15
  • 1.4 本文结构15-16
  • 第2章 聚类分析概述16-27
  • 2.1 数据挖掘技术16-18
  • 2.1.1 数据挖掘的概念16
  • 2.1.2 数据挖掘的过程16-18
  • 2.2 流数据挖掘18-19
  • 2.2.1 流数据的定义及特点18
  • 2.2.2 流数据挖掘的特点18-19
  • 2.3 一般聚类分析概述19-22
  • 2.3.1 聚类分析的概念20
  • 2.3.2 聚类分析算法20-22
  • 2.4 流数据聚类分析22-26
  • 2.4.1 流数据聚类分析的要求22-23
  • 2.4.2 流数据聚类分析算法23-26
  • 2.5 本章小结26-27
  • 第3章 Spark计算平台27-38
  • 3.1 云计算概述27-29
  • 3.1.1 云计算的概念27
  • 3.1.2 云计算的核心技术27-28
  • 3.1.3 MapReduce编程模型28-29
  • 3.2 Spark分布式计算平台29-37
  • 3.2.1 Spark框架概述30-31
  • 3.2.2 弹性分布式数据集(Resilient Distributed dataset,RDD)31-33
  • 3.2.3 Spark工作机制详解33-36
  • 3.2.4 Shuffle机制36-37
  • 3.3 本章小结37-38
  • 第4章 RDDGD-Stream算法的设计与实现38-56
  • 4.1 网格和密度38-40
  • 4.2 RDDGD-Stream算法的总体框架40-41
  • 4.3 数据空间的初始划分41-43
  • 4.3.1 初始划分的基本思路41-42
  • 4.3.2 初始划分的实现42-43
  • 4.4 基于有效时间的数据淘汰算法43-46
  • 4.4.1 算法思路44-45
  • 4.4.2 算法实现45-46
  • 4.5 基于网格数据点数目的重分区算法46-47
  • 4.5.1 重分区算法的基本思路46
  • 4.5.2 重分区算法的实现46-47
  • 4.6 DBSCAN算法的优化47-55
  • 4.6.1 DBSCAN算法分析48-50
  • 4.6.2 基于网格的DBSCAN算法——GDBSCAN50-52
  • 4.6.3 GDBSCAN算法的并行化思路52-53
  • 4.6.4 GDBSCAN算法的并行化实现53-55
  • 4.7 本章小结55-56
  • 第5章 实验与实验结果分析56-67
  • 5.1 GDBSCAN算法的实验设计与结果分析56-59
  • 5.1.1 实验环境与数据准备56
  • 5.1.2 等分倍数分析56-57
  • 5.1.3 加速比分析57-59
  • 5.2 RDDGD-Stream算法的实验设计与结果分析59-66
  • 5.2.1 实验环境与数据准备59-63
  • 5.2.2 演化性测试63-64
  • 5.2.3 聚类质量对比测试64
  • 5.2.4 聚类效率对比测试64-66
  • 5.3 本章小结66-67
  • 第6章 总结与展望67-69
  • 6.1 总结67-68
  • 6.2 展望68-69
  • 参考文献69-72
  • 攻读硕士学位期间发表的论文72-73
  • 致谢73

【参考文献】

中国期刊全文数据库 前1条

1 李敏;李英梅;;数据流聚类算法研究[J];智能计算机与应用;2014年01期


  本文关键词:基于弹性分布式数据集的流数据聚类分析,由笔耕文化传播整理发布。



本文编号:360584

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/360584.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e51dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com