密度聚类算法性能优化和参数选取研究

发布时间：2021-11-12 09:55

　　DBSCAN是密度聚类的代表性算法,是当下科研人员的研究热点,本文针对DBSCAN算法进行了深入研究,并针对其性能和参数选取等方面存在的不足进行了改进。论文工作主要包含以下几点:（1）密度聚类算法代表算法DBSCAN是本文深入的研究的重点。聚类包含多种算法,目前还没有哪一种算法能够针对各类数据集做出完美的聚类,每种算法都存在着自身的优势和适用的数据类型,也都存在着各自的不足。密度聚类是聚类算法中的一种,同时密度聚类也包含多种算法。本文对密度聚类的代表性算法DBSCAN进行了深入分析,阐述了DBSCAN算法的基本原理和算法设计流程,分析了近几年针对DBSCAN算法的相关改进,在已有研究基础上针对算法性能和参数选取提出了相关的解决方案。（2）针对密度聚类算法DBSCAN对数据量大的数据集聚类效率低下的不足,提出一种方形邻域快速网格密度聚类算法。首先给出方形邻域密度聚类定义,利用方形邻域代替圆形邻域,无需距离计算,极大的降低了算法的时间复杂度;其次提出方形邻域密度聚类的4)（9概念,使得高密度区域内的核心点能够被快速确定、数据点之间的密度关系也能够被快速确定,利用密度间的关系,遍历数据集的次...

【文章来源】：江西理工大学江西省

【文章页数】：58 页

【学位级别】：硕士

【部分图文】：

密度聚类算法性能优化和参数选取研究

聚类示意图

网格图,网格,参数,算法

第二章基于密度的聚类算法综述12距离分析理论：CBSCAN将数据集中的对象划分至边长为2√2的网格中，每个网格称之为。如图2.3所示，点无论在其的左上角（蓝点）还是在其右下角（红点），其附近9个网格内的邻居点的数量只需要计数即可，无需进行距离的计算即可确定网格中的点是p的邻居点。之后，再统计剩下的36个网格中是否有p的邻居点，这一步需要计算这些网格中的点与p点之间的距离。图2.3CBSCANCell在上面的计算中，如果点附近9个网格内的邻居点的数量就已经大于了，则可以确定所在网格内的所有点都是核心点。如果附近9个网格内的邻居点无法确定是否是核心点，则最多需要再检查36个网格即可确定是否为核心点。如果36个网格内的数据点数量小于，则可以确定，所在网格内没有核心点。CBSCAN给出了基于的密度簇概念，与距离分析理论相结合，只需要少量的距离计算，即可将处于高密度的核心点快速找出，本来需要的距离计算被大量剪枝，所以快速的排除掉了低密度的核心点。CBSCAN算法具有较高的性能，不足之处是只能针对2维数据进行聚类。2.4常用的参数选取算法每个数据挖掘任务都有参数问题。每个参数对算法都会有影响，正确的选取算法的参数是至关重要的。对于DBSCAN，需要参数和，参数必须由使用者指

【参考文献】：
期刊论文
[1]基于K-均值聚类的彩色图像质量评价及优化[J]. 吴明明,陈勇,房昊.  计算机应用研究. 2019(10)
[2]基于聚类和流量传播图的P2P流量识别方法[J]. 苏阳阳,孙冬璞,李丹丹,孙广路.  计算机应用研究. 2019(11)
[3]一种基于密度的分布式聚类方法[J]. 王岩,彭涛,韩佳育,刘露.  软件学报. 2017(11)
[4]面向位置大数据的快速密度聚类算法[J]. 于彦伟,贾召飞,曹磊,赵金东,刘兆伟,刘惊雷.  软件学报. 2018(08)
[5]自动确定聚类中心的密度峰值算法[J]. 王洋,张桂珠.  计算机工程与应用. 2018(08)
[6]基于路网的LBSN用户移动轨迹聚类挖掘方法[J]. 邹永贵,万建斌,夏英.  计算机应用研究. 2013(08)
[7]“古典概型”的魅力[J]. 华锐.  调研世界. 2012(07)
[8]一种有效的蛋白质序列聚类分析方法[J]. 唐东明,朱清新,杨凡,陈科.  软件学报. 2011(08)

本文编号：3490676

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3490676.html

上一篇：VLOG中明星的自我形象塑造研究 ——以“欧阳娜娜”为例
下一篇：倒谱域音频水印算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|