基于自动检测密度峰值的聚类算法研究

发布时间：2021-10-23 11:42

　　随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技术手段,近年来的关注度持续飙升,而聚类分析作为数据挖掘领域的一种重要分支,发展也十分迅速,如今已经在生命科学,图像分割、金融风险等诸多领域中广泛应用。快速搜索密度峰值聚类算法（Clustering by fast search and find of density peaks,DPC）是由Alex Rodriguez等人于2014年发表在《Science》杂志上的一种新型的密度聚类算法,其具有简单高效、参数依赖性低、适应非凸数据集的特点。尽管密度峰值聚类算法相较之前的算法已经有了较大的改进,但仍存在一些缺陷:（1）没有统一密度度量准则,需要根据样本集的状况选择对应的密度计算公式,也没有解决密度相等时的样本点分配问题。（2）截断距离d_c的选择较为敏感,较小差异的截断距离d_c就会严重影响样本的密度估计。（3）使用欧氏距离定义样本相似性过于简单,在非球面等复杂的数据集上存在局限性。（4）...

【文章来源】：长春工业大学吉林省

【文章页数】：58 页

【学位级别】：硕士

【部分图文】：

基于自动检测密度峰值的聚类算法研究

决策图

基于自动检测密度峰值的聚类算法研究

γ决策图

正态分布,正态分布

第3章一种改进的自动选择密度峰值的聚类算法16本中的异常点。详细的检验法则如下：首先需要设定两个对立的假设条件，分别为原假设0和对立面的备择假设1。若检验的方差为，则可以将检验的过程转换为检验均值过程，因为的观察值在某种程度上体现了检验方差的大校若0假设成立，则|0|的值较校如果|0|的值较大，就可以拒绝0的正确性，进而选择接受1。假若此时的0成立，则统计量为|0|/√~(0,1)，进而可以将|0|的大小等价为统计量|0|/√的大小，因此，可以得到一个正数，假若|0|/√≥时，就拒绝0，若|0|/√<时，就接受0。结合标准正态分布分位点的定义和上述假设可得以下公式：P{|0|/√≥|0为真}=P{|0|/√≥12|0为真}=α(3.5)当|0|/√≥12时，就拒绝0。当|0|/√<12时，就接受0。所以，|0|/√即为检验统计量。正态分布样本图如下所示：图3.3正态分布图图3.3中的曲线代表样本的正态分布状态，假若样本符合正态分布，首先应该计算μ和σ，再计算出μ±3σ的范围区间，最后落在范围区间外的点即为异常点。3.2.1Grubb检测Grubbs’sTest是一种假设检验的方法，通常检测符合正态分布的数据集中是否存在唯一的异常值，若存在，此样本点一定为数据集中的最大值或最小值。

【参考文献】：
期刊论文
[1]快速特征映射优化的流形密度峰聚类[J]. 朱庆峰,葛洪伟.  南京大学学报(自然科学). 2018(04)
[2]基于密度二分法的密度峰值聚类方法[J]. 许朝阳,林耀海,张萍.  计算机工程与应用. 2018(12)
[3]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅.  计算机工程与应用. 2017(16)
[4]一种改进的搜索密度峰值的聚类算法[J]. 淦文燕,刘冲.  智能系统学报. 2017(02)
[5]基于趋势函数的空间数据聚类方法[J]. 李建勋,申静静,李维乾,王婉琳.  计算机工程与应用. 2017(06)
[6]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛.  计算机科学. 2016(07)
[7]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.  Chinese Journal of Electronics. 2016(03)
[8]自动确定聚类中心的密度峰聚类[J]. 李涛,葛洪伟,苏树智.  计算机科学与探索. 2016(11)
[9]K近邻优化的密度峰值快速搜索聚类算法[J]. 谢娟英,高红超,谢维信.  中国科学:信息科学. 2016(02)
[10]快速搜索与发现密度峰值聚类算法的优化研究[J]. 蒋礼青,张明新,郑金龙,戴娇,尚赵伟.  计算机应用研究. 2016(11)

硕士论文
[1]改进K-means聚类算法的研究[D]. 李婷婷.安徽大学 2015

本文编号：3453124

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3453124.html

上一篇：上下级关系中心理阴影的产生及其消除之道
下一篇：考虑消费者行为和估值折扣差异的易逝品两期定价决策研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|