基于Spark平台的改进DBSCAN算法研究

发布时间:2023-05-19 03:05
  随着新时代下信息技术的迅猛发展和广泛应用,互联网服务正在影响着人们的生产生活方式,海量的数据也随之产生,这使得利用数据挖掘工具从冗杂的原始数据中筛选出有价值的信息指导社会生产和生活变得越来越重要。DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法作为应用广泛的密度聚类算法之一,具有能够发现任意形状的簇并且聚类效果不受噪声点影响等优点,是重要的数据挖掘方法。然而,该算法也存在一些缺陷:当数据规模较大时其对内存的需求过高;聚类结果对输入参数敏感,算法参数设置是其难点之一;此外,面对分布不均匀的数据其难以取得较好的聚类效果。针对上述不足之处,本文提出了结合闪电连接过程优化算法(Lightning Attachment Procedure Optimization Algorithm,LAPO)的改进DBSCAN算法,并在新一代大规模数据处理框架Spark下进行算法的并行化策略研究。本文的主要研究内容概括如下:(1)提出了一种基于LAPO算法的聚类中心获取方法。K-means聚类算法具有对数据集依赖度高和对初...

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 引言
    1.1 研究的背景与意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文组织结构
第2章 相关概述
    2.1 聚类算法相关概述
        2.1.1 聚类分析
        2.1.2 聚类算法的类型
        2.1.3 聚类算法中的相似度度量方法
    2.2 闪电连接过程优化算法(LAPO)概述
        2.2.1 LAPO算法思想的起源
        2.2.2 LAPO算法的原理
        2.2.3 LAPO算法的流程
    2.3 分布式计算框架相关技术概述
        2.3.1 HDFS分布式文件系统
        2.3.2 Yarn资源管理和任务调度器
        2.3.3 Spark并行计算框架
    2.4 本章小结
第3章 基于LAPO算法的聚类中心获取方法
    3.1 K-means聚类方法简介
    3.2 基于LAPO算法的聚类中心获取方法
    3.3 实验验证和分析
        3.3.1 数据集及实验说明
        3.3.2 实验结果及其分析
    3.4 本章小结
第4章 结合LAPO的改进DBSCAN算法
    4.1 DBSCAN密度聚类算法
        4.1.1 算法相关概念
        4.1.2 算法局限性分析
    4.2 LAPO-DBSCAN算法
        4.2.1 结合LAPO算法的数据空间的划分
        4.2.2 局部聚类
        4.2.3 聚类结果合并
    4.3 实验及其分析
        4.3.1 实验说明
        4.3.2 实验结果及分析
    4.4 本章小结
第5章 LAPO-DBSCAN算法的并行化
    5.1 Spark平台下的LAPO-DBSCAN算法研究
    5.2 Spark平台的并行算法优化
    5.3 并行化LAPO-DBSCAN算法实验及性能分析
        5.3.1 实验说明
        5.3.2 实验结果及其分析
    5.4 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢



本文编号:3819529

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3819529.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7d8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com