面向混合属性数据的自适应三支聚类算法的研究
发布时间:2020-07-04 05:09
【摘要】:聚类分析作为一种有效的无监督数据挖掘方法,已经广泛地应用在教育、商业、农业等许多实际领域中。为了克服传统二支聚类算法不能够有效表示数据对象与类簇之间存在的不确定性关系,三支聚类算法应运而生。在三支聚类表示中,类簇用两个集合表示,其将数据空间划分为三个域,即:核心域中的数据对象确定属于该类簇,边缘域中的数据对象可能属于该类簇,琐碎域中的数据对象确定不属于该类簇。一方面,目前的三支决策方法研究中,往往需要通过合适的评价函数以及相应的阈值来获得三支结果。但是,阈值的设定往往没有科学且高效的方法。另外一方面,现实生活中存在着大量混合属性数据。因此,论文针对面向混合属性数据的自适应三支聚类算法进行了深入的研究。针对三支聚类阈值问题,论文提出了一种基于引力搜索的自适应三支聚类算法。受物理学中万有引力定律的启发,根据二支聚类结果中数据对象局部质量的分布,以万有引力公式作为评价函数,将初始聚类结果中未被聚类的数据对象,根据万有引力大小划分至其邻居类簇的核心域、边缘域或者琐碎域中。同时,在聚类的过程中,针对每一个未被聚类的数据对象,三支决策阈值能够自适应地调整。通过多组实验分析,保证聚类效果的同时,基于引力搜索的自适应三支聚类算法不仅能够有效保留二支类簇的形状信息,而且能够有效解决重叠聚类的问题。同时,为保证工作的完整性,论文提出了一种改进密度峰值聚类算法作为二支聚类算法,获得二支聚类结果并发现没有明确类簇归属的数据对象。针对混合属性数据相似性度量问题,论文提出了一种基于加权树结构的混合属性数据相似性度量方式,能够有效减少相似性度量过程中属性值信息的损失。针对分类属性以及有序属性,构建加权树结构,充分考虑了属性值语义、属性值个数以及属性值在数据集中出现的频率;针对数值属性,进行归一化处理。同时,结合基于引力搜索的自适应三支聚类算法,论文进一步提出了面向混合属性数据的自适应三支聚类算法。在真实数据集上进行的多组实验结果说明了新算法的合理性以及有效性。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
【图文】:
决策思想的启发,我们通过一对集合表示一个类簇。三支类簇表示更适合处理不确定性,因为它能够有效展示可能属于类簇的数据对象。同时,传统的二支聚类算法通常仅仅是发现可能边缘的数据对象,而不是对它们进行进一步自动地划分,并且往往称这样的数据对象为“噪声点”。为了能够进一步对这些数据对象进行自动地划分,我们提出了一种有效的三支聚类算法,TWC-GS。算法基于万有引力思想,能够在聚类过程中,自适应的调整阈值,得到数据对象与类簇之间更加详细的归属信息。同时,为保证工作的完整性,我们同样提出了一种二支聚类算法来获取二支聚类结果,并发现未被聚类的数据对象。实验结果说明,论文提出的三支聚类算法,不仅能够根据二支聚类结果自动地得到三支聚类结果,而且在 Accuracy、F-measure、NMI、RI 四个指标下优于对比算法。3.1 算法框架概述
实例的初始聚类结果
本文编号:2740687
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
【图文】:
决策思想的启发,我们通过一对集合表示一个类簇。三支类簇表示更适合处理不确定性,因为它能够有效展示可能属于类簇的数据对象。同时,传统的二支聚类算法通常仅仅是发现可能边缘的数据对象,而不是对它们进行进一步自动地划分,并且往往称这样的数据对象为“噪声点”。为了能够进一步对这些数据对象进行自动地划分,我们提出了一种有效的三支聚类算法,TWC-GS。算法基于万有引力思想,能够在聚类过程中,自适应的调整阈值,得到数据对象与类簇之间更加详细的归属信息。同时,为保证工作的完整性,我们同样提出了一种二支聚类算法来获取二支聚类结果,并发现未被聚类的数据对象。实验结果说明,论文提出的三支聚类算法,不仅能够根据二支聚类结果自动地得到三支聚类结果,而且在 Accuracy、F-measure、NMI、RI 四个指标下优于对比算法。3.1 算法框架概述
实例的初始聚类结果
【参考文献】
相关期刊论文 前1条
1 蔡莉;魏云刚;;教育资源共享网络中教师聚类的提取与应用[J];现代教育技术;2010年06期
相关硕士学位论文 前1条
1 张聪;一种基于树结构的三支增量聚类算法研究[D];重庆邮电大学;2015年
本文编号:2740687
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2740687.html