基于自动检测密度峰值的聚类算法研究
发布时间:2021-10-23 11:42
随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技术手段,近年来的关注度持续飙升,而聚类分析作为数据挖掘领域的一种重要分支,发展也十分迅速,如今已经在生命科学,图像分割、金融风险等诸多领域中广泛应用。快速搜索密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)是由Alex Rodriguez等人于2014年发表在《Science》杂志上的一种新型的密度聚类算法,其具有简单高效、参数依赖性低、适应非凸数据集的特点。尽管密度峰值聚类算法相较之前的算法已经有了较大的改进,但仍存在一些缺陷:(1)没有统一密度度量准则,需要根据样本集的状况选择对应的密度计算公式,也没有解决密度相等时的样本点分配问题。(2)截断距离dc的选择较为敏感,较小差异的截断距离dc就会严重影响样本的密度估计。(3)使用欧氏距离定义样本相似性过于简单,在非球面等复杂的数据集上存在局限性。(4)...
【文章来源】:长春工业大学吉林省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
决策图
γ决策图
第3章一种改进的自动选择密度峰值的聚类算法16本中的异常点。详细的检验法则如下:首先需要设定两个对立的假设条件,分别为原假设0和对立面的备择假设1。若检验的方差为,则可以将检验的过程转换为检验均值过程,因为的观察值在某种程度上体现了检验方差的大校若0假设成立,则|0|的值较校如果|0|的值较大,就可以拒绝0的正确性,进而选择接受1。假若此时的0成立,则统计量为|0|/√~(0,1),进而可以将|0|的大小等价为统计量|0|/√的大小,因此,可以得到一个正数,假若|0|/√≥时,就拒绝0,若|0|/√<时,就接受0。结合标准正态分布分位点的定义和上述假设可得以下公式:P{|0|/√≥|0为真}=P{|0|/√≥12|0为真}=α(3.5)当|0|/√≥12时,就拒绝0。当|0|/√<12时,就接受0。所以,|0|/√即为检验统计量。正态分布样本图如下所示:图3.3正态分布图图3.3中的曲线代表样本的正态分布状态,假若样本符合正态分布,首先应该计算μ和σ,再计算出μ±3σ的范围区间,最后落在范围区间外的点即为异常点。3.2.1Grubb检测Grubbs’sTest是一种假设检验的方法,通常检测符合正态分布的数据集中是否存在唯一的异常值,若存在,此样本点一定为数据集中的最大值或最小值。
【参考文献】:
期刊论文
[1]快速特征映射优化的流形密度峰聚类[J]. 朱庆峰,葛洪伟. 南京大学学报(自然科学). 2018(04)
[2]基于密度二分法的密度峰值聚类方法[J]. 许朝阳,林耀海,张萍. 计算机工程与应用. 2018(12)
[3]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅. 计算机工程与应用. 2017(16)
[4]一种改进的搜索密度峰值的聚类算法[J]. 淦文燕,刘冲. 智能系统学报. 2017(02)
[5]基于趋势函数的空间数据聚类方法[J]. 李建勋,申静静,李维乾,王婉琳. 计算机工程与应用. 2017(06)
[6]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[7]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
[8]自动确定聚类中心的密度峰聚类[J]. 李涛,葛洪伟,苏树智. 计算机科学与探索. 2016(11)
[9]K近邻优化的密度峰值快速搜索聚类算法[J]. 谢娟英,高红超,谢维信. 中国科学:信息科学. 2016(02)
[10]快速搜索与发现密度峰值聚类算法的优化研究[J]. 蒋礼青,张明新,郑金龙,戴娇,尚赵伟. 计算机应用研究. 2016(11)
硕士论文
[1]改进K-means聚类算法的研究[D]. 李婷婷.安徽大学 2015
本文编号:3453124
【文章来源】:长春工业大学吉林省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
决策图
γ决策图
第3章一种改进的自动选择密度峰值的聚类算法16本中的异常点。详细的检验法则如下:首先需要设定两个对立的假设条件,分别为原假设0和对立面的备择假设1。若检验的方差为,则可以将检验的过程转换为检验均值过程,因为的观察值在某种程度上体现了检验方差的大校若0假设成立,则|0|的值较校如果|0|的值较大,就可以拒绝0的正确性,进而选择接受1。假若此时的0成立,则统计量为|0|/√~(0,1),进而可以将|0|的大小等价为统计量|0|/√的大小,因此,可以得到一个正数,假若|0|/√≥时,就拒绝0,若|0|/√<时,就接受0。结合标准正态分布分位点的定义和上述假设可得以下公式:P{|0|/√≥|0为真}=P{|0|/√≥12|0为真}=α(3.5)当|0|/√≥12时,就拒绝0。当|0|/√<12时,就接受0。所以,|0|/√即为检验统计量。正态分布样本图如下所示:图3.3正态分布图图3.3中的曲线代表样本的正态分布状态,假若样本符合正态分布,首先应该计算μ和σ,再计算出μ±3σ的范围区间,最后落在范围区间外的点即为异常点。3.2.1Grubb检测Grubbs’sTest是一种假设检验的方法,通常检测符合正态分布的数据集中是否存在唯一的异常值,若存在,此样本点一定为数据集中的最大值或最小值。
【参考文献】:
期刊论文
[1]快速特征映射优化的流形密度峰聚类[J]. 朱庆峰,葛洪伟. 南京大学学报(自然科学). 2018(04)
[2]基于密度二分法的密度峰值聚类方法[J]. 许朝阳,林耀海,张萍. 计算机工程与应用. 2018(12)
[3]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅. 计算机工程与应用. 2017(16)
[4]一种改进的搜索密度峰值的聚类算法[J]. 淦文燕,刘冲. 智能系统学报. 2017(02)
[5]基于趋势函数的空间数据聚类方法[J]. 李建勋,申静静,李维乾,王婉琳. 计算机工程与应用. 2017(06)
[6]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[7]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
[8]自动确定聚类中心的密度峰聚类[J]. 李涛,葛洪伟,苏树智. 计算机科学与探索. 2016(11)
[9]K近邻优化的密度峰值快速搜索聚类算法[J]. 谢娟英,高红超,谢维信. 中国科学:信息科学. 2016(02)
[10]快速搜索与发现密度峰值聚类算法的优化研究[J]. 蒋礼青,张明新,郑金龙,戴娇,尚赵伟. 计算机应用研究. 2016(11)
硕士论文
[1]改进K-means聚类算法的研究[D]. 李婷婷.安徽大学 2015
本文编号:3453124
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3453124.html