当前位置:主页 > 科技论文 > 软件论文 >

基于DBSCAN的分布式聚类及增量聚类的研究与应用

发布时间:2017-07-26 19:03

  本文关键词:基于DBSCAN的分布式聚类及增量聚类的研究与应用


  更多相关文章: DBSCAN 分布式聚类 增量聚类 核密度估计 Storm


【摘要】:随着互联网和信息技术的快速发展,存在于人们日常生产生活中的数据呈海量式增长。如何从海量数据中挖掘出隐含的信息对于指导人们的生产生活至关重要,而聚类是数据挖掘的重要基础。目前专家、学者对海量数据聚类进行了深入研究并取得了大量成果,但是如何提高海量数据的聚类效率和聚类精度仍是当前的研究重点。本文主要工作如下:(1)针对传统的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法进行研究,针对其内存消耗严重以及对参数敏感的不足,提出了基于DBSCAN和核密度估计的分布式聚类算法。该算法将海量数据分发到多个节点上,然后在每个节点上采用核密度估计方法得到本节点最优参数Eps和MinPts,根据所得参数进行局部聚类,最后提取所有局部聚类结果中的核心对象、边界信息和噪声点按照合并规则进行合并,得到最终聚类结果。实验结果表明,该算法不仅提高聚类效率,同时改善了聚类质量。(2)针对当前聚类算法在增量数据聚类过程中的效率问题,提出了基于DBSCAN的增量聚类算法。面对不断增长的海量数据,该算法只对增量数据进行聚类,然后将聚类结果按照密度可达规则纳入到初始聚类结果当中,得到最终聚类结果。增量聚类算法避免了增量数据聚类过程中初始数据的“二次聚类”问题,从而大大提高了增量数据的聚类效率。(3)在分布式聚类算法和增量聚类算法的基础上,结合分布式框架Storm,实现了网络数据聚类系统。该系统从各个站点的网络设备中采集原始网络数据,然后对这些原始网络数据进行清洗过滤和预处理,将其转化成可用于聚类的标准数据格式,最后对这些海量网络数据进行分布式聚类和增量聚类,生成聚类结果。该系统完成了网络流量数据的一站式聚类处理,实现了对海量网络数据稳定、高效地聚类分析。
【关键词】:DBSCAN 分布式聚类 增量聚类 核密度估计 Storm
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-16
  • 1.1 研究背景和意义10-11
  • 1.1.1 研究背景10
  • 1.1.2 研究意义10-11
  • 1.2 国内外研究现状11-13
  • 1.2.1 国内研究现状11-12
  • 1.2.2 国外研究现状12-13
  • 1.3 主要研究内容13-14
  • 1.4 论文结构14-16
  • 第2章 背景知识与相关技术16-26
  • 2.1 聚类算法定义16
  • 2.2 传统聚类算法分类16-17
  • 2.3 DBSCAN算法17-21
  • 2.3.1 主要思想17
  • 2.3.2 相关概念17-19
  • 2.3.3 实现过程19-21
  • 2.4 分布式计算21-25
  • 2.4.1 基本定义21
  • 2.4.2 Storm框架21-25
  • 2.5 增量聚类算法概述25
  • 2.6 本章小结25-26
  • 第3章 基于DBSCAN和核密度估计的分布式聚类算法26-38
  • 3.1 算法总体设计26-28
  • 3.2 算法具体流程28-31
  • 3.2.1 数据分发28
  • 3.2.2 局部聚类28-29
  • 3.2.3 聚类合并29-31
  • 3.3 参数本地化策略31-33
  • 3.3.1 核密度估计31-32
  • 3.3.2 参数自适应确定32-33
  • 3.4 算法复杂度分析33-34
  • 3.5 实验分析34-37
  • 3.5.1 聚类准确率实验34-37
  • 3.5.2 聚类效率实验37
  • 3.6 本章小结37-38
  • 第4章 基于DBSCAN的增量聚类算法38-48
  • 4.1 增量聚类算法流程设计38-39
  • 4.2 算法合并规则和实现过程39-44
  • 4.2.1 增量合并规则39-43
  • 4.2.2 算法实现过程43-44
  • 4.3 算法复杂度分析44
  • 4.4 实验分析44-47
  • 4.4.1 可行性实验45-46
  • 4.4.2 高效性实验46-47
  • 4.5 本章小结47-48
  • 第5章 基于分布式增量聚类算法的网络数据聚类系统实现48-64
  • 5.1 系统整体架构48-49
  • 5.2 数据采集49-51
  • 5.2.1 分布式采集49-50
  • 5.2.2 数据缓存50-51
  • 5.3 数据预处理51-56
  • 5.3.1 数据过滤清洗51-54
  • 5.3.2 流量特征统计54-56
  • 5.4 分布式增量聚类56-63
  • 5.4.1 聚类模块的设计57-58
  • 5.4.2 数据分发58
  • 5.4.3 局部参数确认58
  • 5.4.4 局部聚类58-60
  • 5.4.5 聚类合并60-62
  • 5.4.6 增量聚类62-63
  • 5.5 本章小结63-64
  • 结论64-66
  • 参考文献66-70
  • 攻读硕士学位期间所发表的学术论文70-72
  • 致谢72


本文编号:577852

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/577852.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户55a5d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com