密度聚类算法性能优化和参数选取研究
发布时间:2021-11-12 09:55
DBSCAN是密度聚类的代表性算法,是当下科研人员的研究热点,本文针对DBSCAN算法进行了深入研究,并针对其性能和参数选取等方面存在的不足进行了改进。论文工作主要包含以下几点:(1)密度聚类算法代表算法DBSCAN是本文深入的研究的重点。聚类包含多种算法,目前还没有哪一种算法能够针对各类数据集做出完美的聚类,每种算法都存在着自身的优势和适用的数据类型,也都存在着各自的不足。密度聚类是聚类算法中的一种,同时密度聚类也包含多种算法。本文对密度聚类的代表性算法DBSCAN进行了深入分析,阐述了DBSCAN算法的基本原理和算法设计流程,分析了近几年针对DBSCAN算法的相关改进,在已有研究基础上针对算法性能和参数选取提出了相关的解决方案。(2)针对密度聚类算法DBSCAN对数据量大的数据集聚类效率低下的不足,提出一种方形邻域快速网格密度聚类算法。首先给出方形邻域密度聚类定义,利用方形邻域代替圆形邻域,无需距离计算,极大的降低了算法的时间复杂度;其次提出方形邻域密度聚类的4)(9概念,使得高密度区域内的核心点能够被快速确定、数据点之间的密度关系也能够被快速确定,利用密度间的关系,遍历数据集的次...
【文章来源】:江西理工大学江西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
聚类示意图
第二章基于密度的聚类算法综述12距离分析理论:CBSCAN将数据集中的对象划分至边长为2√2的网格中,每个网格称之为。如图2.3所示,点无论在其的左上角(蓝点)还是在其右下角(红点),其附近9个网格内的邻居点的数量只需要计数即可,无需进行距离的计算即可确定网格中的点是p的邻居点。之后,再统计剩下的36个网格中是否有p的邻居点,这一步需要计算这些网格中的点与p点之间的距离。图2.3CBSCANCell在上面的计算中,如果点附近9个网格内的邻居点的数量就已经大于了,则可以确定所在网格内的所有点都是核心点。如果附近9个网格内的邻居点无法确定是否是核心点,则最多需要再检查36个网格即可确定是否为核心点。如果36个网格内的数据点数量小于,则可以确定,所在网格内没有核心点。CBSCAN给出了基于的密度簇概念,与距离分析理论相结合,只需要少量的距离计算,即可将处于高密度的核心点快速找出,本来需要的距离计算被大量剪枝,所以快速的排除掉了低密度的核心点。CBSCAN算法具有较高的性能,不足之处是只能针对2维数据进行聚类。2.4常用的参数选取算法每个数据挖掘任务都有参数问题。每个参数对算法都会有影响,正确的选取算法的参数是至关重要的。对于DBSCAN,需要参数和,参数必须由使用者指
【参考文献】:
期刊论文
[1]基于K-均值聚类的彩色图像质量评价及优化[J]. 吴明明,陈勇,房昊. 计算机应用研究. 2019(10)
[2]基于聚类和流量传播图的P2P流量识别方法[J]. 苏阳阳,孙冬璞,李丹丹,孙广路. 计算机应用研究. 2019(11)
[3]一种基于密度的分布式聚类方法[J]. 王岩,彭涛,韩佳育,刘露. 软件学报. 2017(11)
[4]面向位置大数据的快速密度聚类算法[J]. 于彦伟,贾召飞,曹磊,赵金东,刘兆伟,刘惊雷. 软件学报. 2018(08)
[5]自动确定聚类中心的密度峰值算法[J]. 王洋,张桂珠. 计算机工程与应用. 2018(08)
[6]基于路网的LBSN用户移动轨迹聚类挖掘方法[J]. 邹永贵,万建斌,夏英. 计算机应用研究. 2013(08)
[7]“古典概型”的魅力[J]. 华锐. 调研世界. 2012(07)
[8]一种有效的蛋白质序列聚类分析方法[J]. 唐东明,朱清新,杨凡,陈科. 软件学报. 2011(08)
本文编号:3490676
【文章来源】:江西理工大学江西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
聚类示意图
第二章基于密度的聚类算法综述12距离分析理论:CBSCAN将数据集中的对象划分至边长为2√2的网格中,每个网格称之为。如图2.3所示,点无论在其的左上角(蓝点)还是在其右下角(红点),其附近9个网格内的邻居点的数量只需要计数即可,无需进行距离的计算即可确定网格中的点是p的邻居点。之后,再统计剩下的36个网格中是否有p的邻居点,这一步需要计算这些网格中的点与p点之间的距离。图2.3CBSCANCell在上面的计算中,如果点附近9个网格内的邻居点的数量就已经大于了,则可以确定所在网格内的所有点都是核心点。如果附近9个网格内的邻居点无法确定是否是核心点,则最多需要再检查36个网格即可确定是否为核心点。如果36个网格内的数据点数量小于,则可以确定,所在网格内没有核心点。CBSCAN给出了基于的密度簇概念,与距离分析理论相结合,只需要少量的距离计算,即可将处于高密度的核心点快速找出,本来需要的距离计算被大量剪枝,所以快速的排除掉了低密度的核心点。CBSCAN算法具有较高的性能,不足之处是只能针对2维数据进行聚类。2.4常用的参数选取算法每个数据挖掘任务都有参数问题。每个参数对算法都会有影响,正确的选取算法的参数是至关重要的。对于DBSCAN,需要参数和,参数必须由使用者指
【参考文献】:
期刊论文
[1]基于K-均值聚类的彩色图像质量评价及优化[J]. 吴明明,陈勇,房昊. 计算机应用研究. 2019(10)
[2]基于聚类和流量传播图的P2P流量识别方法[J]. 苏阳阳,孙冬璞,李丹丹,孙广路. 计算机应用研究. 2019(11)
[3]一种基于密度的分布式聚类方法[J]. 王岩,彭涛,韩佳育,刘露. 软件学报. 2017(11)
[4]面向位置大数据的快速密度聚类算法[J]. 于彦伟,贾召飞,曹磊,赵金东,刘兆伟,刘惊雷. 软件学报. 2018(08)
[5]自动确定聚类中心的密度峰值算法[J]. 王洋,张桂珠. 计算机工程与应用. 2018(08)
[6]基于路网的LBSN用户移动轨迹聚类挖掘方法[J]. 邹永贵,万建斌,夏英. 计算机应用研究. 2013(08)
[7]“古典概型”的魅力[J]. 华锐. 调研世界. 2012(07)
[8]一种有效的蛋白质序列聚类分析方法[J]. 唐东明,朱清新,杨凡,陈科. 软件学报. 2011(08)
本文编号:3490676
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3490676.html