基于局部中心量度的聚类算法研究
发布时间:2020-08-31 15:21
聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。一般而言,能将无标签的样本点聚为若干个簇的算法都可以称为聚类算法,人们常根据这些算法的基本思想或基本假设将其分为几个常见的类型:分割聚类法、层次聚类法、密度聚类法、网格聚类法、模型聚类法等。该文提出了一类基于局部中心量度的聚类算法,其创造性成果主要体现在:1)首创性地提出了局部中心量度的概念。局部中心量度是衡量空间中任意点的局部中心程度的量,聚类过程中区分中心区域的点和边缘区域的点有赖于正确估计出样本点的局部中心程度。该文认为,密度聚类算法中选用的样本点密度起着局部中心量度的作用:密度高于预先设定的阈值的样本点被划分为核心区域的点,而密度低于阈值的样本点被划分为边缘区域的点,它们之间相互连接形成最终的聚类结果。经验上,样本点密度较大的区域通常是簇中心区域,而样本点密度较小的区域通常是簇边缘区域。因而,有着完善的数学理论基础的样本点密度最先成为局部中心量度被广泛应用。然而,样本点密度作为局部中心量度存在着缺陷:密度阈值难以先于经验给出,这将导致以样本点密度为局部中心量度的聚类算法对参数敏感;不同的簇可能有着相差较大的最佳阈值,这将导致以样本点密度为局部中心量度的聚类算法难以处理不平衡问题。因此,人们需要设计新的局部中心量度。2)设计了多个局部中心量度。局部中心量度的准确性直接影响到聚类结果的正确性,一个良好的局部中心量度除了能够正确反映样本点的真实局部中心程度外还需要考虑:局部中心量度的稳定性,即不论应用于何种分布的数据,区分中心区域和边缘区域的样本点的阈值相对稳定,易于算法参数的选取,降低算法对参数的敏感度;局部中心量度的健壮性,即计算结果不易受数据分布的不平衡性影响。该文分别从mean shift和局部引力模型出发,设计了稳定性和健壮性更强的局部中心量度。3)提出了局部引力模型和新的聚类算法。基于局部引力模型,该文借助不同的局部中心量度间的多样性,同时使用多个局部中心量度,提出了LGC算法和CLA算法。新提出的聚类算法具有易于调参,结果准确等特点。4)设计了适用于多性能指标体系下的非参数检验方法。衡量聚类算法性能的指标较多,常见的有RI、ARI、NMI等。多种指标之间的数值相互直接比较是没有意义的,如就算法甲的RI值和算法乙的NMI值进行直接比较是没有意义的。该文采用秩转化的方法,提出了三种不同的计算秩的方法,将不同的性能指标对应的具体数值转化为秩值,通过对秩值进行统计检验完成多性能指标的融合。
【学位单位】:华南理工大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
本文编号:2808987
【学位单位】:华南理工大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
【参考文献】
相关期刊论文 前10条
1 冯振华;钱雪忠;赵娜娜;;Greedy DBSCAN:一种针对多密度聚类的DBSCAN改进算法[J];计算机应用研究;2016年09期
2 ;A generalized mean shift tracking algorithm[J];Science China(Information Sciences);2011年11期
3 王爽;夏玉;焦李成;;基于均值漂移的自适应纹理图像分割方法[J];软件学报;2010年06期
4 严太生;张彦霞;赵永恒;李冀;;基于自动聚类算法(AutoClass)的恒星/星系分类[J];中国科学(G辑:物理学 力学 天文学);2009年12期
5 赵玉艳;郭景峰;郑丽珍;李晶;;一种改进的BIRCH分层聚类算法[J];计算机科学;2008年03期
6 蒋盛益,李庆华;一种基于引力的聚类方法[J];计算机应用;2005年02期
7 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
8 许少华,何新贵,李盼池;自组织过程神经网络及其应用研究[J];计算机研究与发展;2003年11期
9 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
10 吴郢,阎平凡;结构自适应自组织神经网络的研究[J];电子学报;1999年07期
本文编号:2808987
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2808987.html