聚类分析中的最佳聚类数确定方法研究
发布时间:2021-11-14 18:17
作为无监督学习方法的一种,聚类分析是从无标记数据集中获取信息和知识的重要手段,是数据挖掘、统计学、模式识别等领域的重要研究内容。通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来。随着数据挖掘和人工智能技术的不断发展,对于聚类分析的研究也得到了较大的发展,目前聚类分析已经被广泛应用于客户推荐、模式分割、视频图像处理等不同的领域。然而,当前已有的聚类分析方法依旧存在着许多不足之处。作为聚类分析中最为重要的一部分,最佳聚类数确定方法是决定聚类质量的关键因素。围绕着这个主题,本文深入的研究了聚类分析中的聚类算法和聚类有效性评价,主要工作如下:(1)针对现有的部分聚类分析方法存在的聚类效果不稳定、无法对多种结构的数据集进行正确聚类的问题,我们将K-means算法和AHC(Agglomerative Hierarchical Clustering,凝聚层次聚类算法)算法的聚类思想相结合,提出了一种混合聚类算法Kmeans-AHC。该算法可以对多种数据结构的数据集进行有效聚类,并且相对传统的AHC算法有效降低了时间复杂度。(2)其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
DAS指标的类簇结构分布图
安徽大学硕士学位论文23图3.3不同K值下测试数据集的聚类结果图3.4不同类簇数下的E(K)和DAS(K)值的变化3.3最佳聚类数的确定算法基于Kmeans-AHC算法和DAS聚类有效性指标,本文设计了确定最佳聚类数的算法。通常,类簇数的搜索范围是[2,Kmax]。根据通行的经验规则∈[2,√],本文将Kmax的上限被设定为√。与此同时,由于Kmeans-AHC算法在生成初始类簇的时候不必指定一个准确的K值,只需要给出一个较大的初始值即可。即由Kmeans-AHC算法生成的初始类簇的数量要比目标数据集D的真实划分数量要多。在本文当中,K的初始值定为2√。相应的,Kmeans-AHC算法生成的初始类簇的数量|C|也为2√。其中,C为生成的目标数据集D的初始划分。图3.5给出了本文提出的最佳聚类数和最优划分确定算法的流程。在该算法当中,第(1)步确定数据集D的初始类簇数量2√。第(2)步根据设定的初始类簇数量并利用Kmeans-AHC算法的第(1)~第(4)步形成数据集D的初始划分。在第(3)步利用Kmeans-AHC算法的第(5)步逐步合并距离较近的相邻的类簇。与此同时,该
不同类簇数下的E(K)和DAS(K)值的变化
【参考文献】:
期刊论文
[1]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅. 计算机工程与应用. 2017(16)
[2]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[3]基于划分的聚类算法研究综述[J]. 贾瑷玮. 电子设计工程. 2014(23)
[4]聚类有效性研究综述[J]. 周开乐,杨善林,丁帅,罗贺. 系统工程理论与实践. 2014(09)
[5]聚类有效性评价综述[J]. 杨燕,靳蕃,KAMEL Mohamed. 计算机应用研究. 2008(06)
博士论文
[1]数据挖掘中聚类若干问题研究[D]. 赵恒.西安电子科技大学 2005
硕士论文
[1]聚类分析中最佳聚类数确定方法研究[D]. 张雄.南京邮电大学 2018
[2]聚类分析中新聚类有效性指标的研究[D]. 李朋.安徽大学 2018
[3]聚类有效性指标的研究与对比分析[D]. 侯双双.中国石油大学(华东) 2016
本文编号:3495119
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
DAS指标的类簇结构分布图
安徽大学硕士学位论文23图3.3不同K值下测试数据集的聚类结果图3.4不同类簇数下的E(K)和DAS(K)值的变化3.3最佳聚类数的确定算法基于Kmeans-AHC算法和DAS聚类有效性指标,本文设计了确定最佳聚类数的算法。通常,类簇数的搜索范围是[2,Kmax]。根据通行的经验规则∈[2,√],本文将Kmax的上限被设定为√。与此同时,由于Kmeans-AHC算法在生成初始类簇的时候不必指定一个准确的K值,只需要给出一个较大的初始值即可。即由Kmeans-AHC算法生成的初始类簇的数量要比目标数据集D的真实划分数量要多。在本文当中,K的初始值定为2√。相应的,Kmeans-AHC算法生成的初始类簇的数量|C|也为2√。其中,C为生成的目标数据集D的初始划分。图3.5给出了本文提出的最佳聚类数和最优划分确定算法的流程。在该算法当中,第(1)步确定数据集D的初始类簇数量2√。第(2)步根据设定的初始类簇数量并利用Kmeans-AHC算法的第(1)~第(4)步形成数据集D的初始划分。在第(3)步利用Kmeans-AHC算法的第(5)步逐步合并距离较近的相邻的类簇。与此同时,该
不同类簇数下的E(K)和DAS(K)值的变化
【参考文献】:
期刊论文
[1]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅. 计算机工程与应用. 2017(16)
[2]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[3]基于划分的聚类算法研究综述[J]. 贾瑷玮. 电子设计工程. 2014(23)
[4]聚类有效性研究综述[J]. 周开乐,杨善林,丁帅,罗贺. 系统工程理论与实践. 2014(09)
[5]聚类有效性评价综述[J]. 杨燕,靳蕃,KAMEL Mohamed. 计算机应用研究. 2008(06)
博士论文
[1]数据挖掘中聚类若干问题研究[D]. 赵恒.西安电子科技大学 2005
硕士论文
[1]聚类分析中最佳聚类数确定方法研究[D]. 张雄.南京邮电大学 2018
[2]聚类分析中新聚类有效性指标的研究[D]. 李朋.安徽大学 2018
[3]聚类有效性指标的研究与对比分析[D]. 侯双双.中国石油大学(华东) 2016
本文编号:3495119
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3495119.html
最近更新
教材专著