基于快速搜索和发现的密度峰值聚类算法研究与应用
发布时间:2021-08-23 18:59
近些年来,互联网飞速发展,人们在各行各业产生了海量数据,使得人们慢慢进入了真正意义的新时代—数据时代。因此,如何从存储的数据中挖掘其潜在的价值,以便能够更好地推动工业、商业、交通和医疗等领域的发展,为人类社会进步做出贡献,数据挖掘算法的研究成为了当代研究学者热门研究课题。聚类分析算法是在数据挖据领域中众多热门研究课题之一,它隶属于机器学习中无监督学习模块。在2014年,Alex Rodriguez和Alessandro Laio在Science杂志上发表了一篇名为通过快速搜索和发现的密度峰值聚类算法(Clustering by fast search and find of density peaks,CFSFDP)的文章,该方法在聚类算法领域另辟蹊径,克服了之前聚类算法只能识别和发现基于距离的圆形簇的缺陷,还可以对不同形状的簇聚类,而且对噪声不敏感。本文主要在以下几个方面进行改进:(1)首先,针对CFSFDP算法在确定聚类中心时,总是受人为主观因素的制约,使得聚类缺乏科学性和准确性,本文提出了一种基于正序迭代选择策略的密度峰值聚类算法。首先,对于决策函数中变量分布不均匀的情形,进行了...
【文章来源】:浙江工业大学浙江省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
样本点二维图
地排除了之前所述情况的发生。可以最大程度地保证不同的数据点拥有不同的局部密度(重合数据点的局部密度除外)。公式 2-3 中数据点 i 的局部密度 ρi同样可以反映距离比截断距离更近的点数[44]。dij为数据点ix 与数据点jx 相互间的欧式距离,用以表示数据点之间的相似度。对于距离,这里采用文献[28]距离的计算方式。距离反映的是对每一个数据点i 与局部密度值比之大,且距离 dij最小的数据点 j 之间的距离,其中密度最大值点取 i j ij max d。定义 2 归一化决策函数:min minmax min max min*i i (2-4)为了寻找到最佳聚类中心数,首先定义一个对局部密度和距离度量函数,并且为了避免局部密度和距离的分布不均匀而导致的决策函数受单一变量影响较大的情况发生,对决策函数进行归一化处理,对每一个变量进行单位缩放,这里称为决策函数 γ。决策图如图 2-4 所示。
而△mc为聚类样本数的增量,其中1=c cm m m , mc为当聚类中心数为 c时的 m 值。拐点方法(elbow method)是聚类分析里面的一个方法,旨在帮助找到数据集中簇的适当数量[70]。它通常是通过计算簇内误方差(SSE)作为目标函数来划分簇,不同的簇数有不同的 SSE 值,根据 SSE 的变化规律选择最佳聚类中心数。(a) 3 个聚类中心 (b) 4 个聚类中心
【参考文献】:
期刊论文
[1]基于正序迭代选择策略的聚类中心自动选择方法[J]. 王万良,吕闯,赵燕伟,高楠,杨小涵,张兆娟. 模式识别与人工智能. 2019(02)
[2]基于MapReduce的CTK加权聚类改进算法[J]. 王万良,胡禹. 微电子学与计算机. 2018(12)
[3]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌. 计算机应用研究. 2020(01)
[4]基于网络节点中心性度量的重叠社区发现算法[J]. 杜航原,王文剑,白亮. 计算机研究与发展. 2018(08)
[5]大数据技术在配电网中的应用综述[J]. 费思源. 中国电机工程学报. 2018(01)
[6]一种基于相对密度和决策图的聚类算法[J]. 周世波,徐维祥. 控制与决策. 2018(11)
[7]密度峰值聚类相关问题的研究[J]. 杨洁,王国胤,庞紫玲. 南京大学学报(自然科学). 2017(04)
[8]水利大数据研究综述[J]. 陈军飞,邓梦华,王慧敏. 水科学进展. 2017(04)
[9]一种改进的搜索密度峰值的聚类算法[J]. 淦文燕,刘冲. 智能系统学报. 2017(02)
[10]一种基于簇边界的密度峰值点快速搜索聚类算法[J]. 贾培灵,樊建聪,彭延军. 南京大学学报(自然科学). 2017(02)
硕士论文
[1]大数据实时流式聚类处理框架研究[D]. 李子柳.中山大学 2013
本文编号:3358416
【文章来源】:浙江工业大学浙江省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
样本点二维图
地排除了之前所述情况的发生。可以最大程度地保证不同的数据点拥有不同的局部密度(重合数据点的局部密度除外)。公式 2-3 中数据点 i 的局部密度 ρi同样可以反映距离比截断距离更近的点数[44]。dij为数据点ix 与数据点jx 相互间的欧式距离,用以表示数据点之间的相似度。对于距离,这里采用文献[28]距离的计算方式。距离反映的是对每一个数据点i 与局部密度值比之大,且距离 dij最小的数据点 j 之间的距离,其中密度最大值点取 i j ij max d。定义 2 归一化决策函数:min minmax min max min*i i (2-4)为了寻找到最佳聚类中心数,首先定义一个对局部密度和距离度量函数,并且为了避免局部密度和距离的分布不均匀而导致的决策函数受单一变量影响较大的情况发生,对决策函数进行归一化处理,对每一个变量进行单位缩放,这里称为决策函数 γ。决策图如图 2-4 所示。
而△mc为聚类样本数的增量,其中1=c cm m m , mc为当聚类中心数为 c时的 m 值。拐点方法(elbow method)是聚类分析里面的一个方法,旨在帮助找到数据集中簇的适当数量[70]。它通常是通过计算簇内误方差(SSE)作为目标函数来划分簇,不同的簇数有不同的 SSE 值,根据 SSE 的变化规律选择最佳聚类中心数。(a) 3 个聚类中心 (b) 4 个聚类中心
【参考文献】:
期刊论文
[1]基于正序迭代选择策略的聚类中心自动选择方法[J]. 王万良,吕闯,赵燕伟,高楠,杨小涵,张兆娟. 模式识别与人工智能. 2019(02)
[2]基于MapReduce的CTK加权聚类改进算法[J]. 王万良,胡禹. 微电子学与计算机. 2018(12)
[3]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌. 计算机应用研究. 2020(01)
[4]基于网络节点中心性度量的重叠社区发现算法[J]. 杜航原,王文剑,白亮. 计算机研究与发展. 2018(08)
[5]大数据技术在配电网中的应用综述[J]. 费思源. 中国电机工程学报. 2018(01)
[6]一种基于相对密度和决策图的聚类算法[J]. 周世波,徐维祥. 控制与决策. 2018(11)
[7]密度峰值聚类相关问题的研究[J]. 杨洁,王国胤,庞紫玲. 南京大学学报(自然科学). 2017(04)
[8]水利大数据研究综述[J]. 陈军飞,邓梦华,王慧敏. 水科学进展. 2017(04)
[9]一种改进的搜索密度峰值的聚类算法[J]. 淦文燕,刘冲. 智能系统学报. 2017(02)
[10]一种基于簇边界的密度峰值点快速搜索聚类算法[J]. 贾培灵,樊建聪,彭延军. 南京大学学报(自然科学). 2017(02)
硕士论文
[1]大数据实时流式聚类处理框架研究[D]. 李子柳.中山大学 2013
本文编号:3358416
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3358416.html