聚类分析的新方法研究
发布时间:2020-12-20 14:42
聚类分析是一种无监督学习,旨在根据特定的准则将数据集划分成若干个互不相交的簇(或“类”),从而发掘数据中的内在结构信息。本文研究内容主要集中于:(1)为提高聚类鲁棒性,提出了一种改进的模糊C-Means算法;(2)提出一种新的半监督避开鞍点的聚类方法。对提出的两个新聚类方法,通过实验结果对比,说明了它们的有效性。“一种鲁棒的模糊聚类方法”:模糊C-Means聚类(Fuzzy C-Means,FCM)未考虑噪音和野值点对聚类的影响,故FCM是欠鲁棒的。为了增强鲁棒性,将FCM中的光滑距离度量改变为非光滑距离度量。由此提出了一种鲁棒的模糊聚类方法(Robust FCM,RFCM)。为了求解RFCM对应的非光滑优化问题,本文采用了MM(Majorization-Minimization,MM)框架。通过在多个数据集上的实验,将RFCM与传统FCM算法进行对比,表明RFCM比FCM具有更好的聚类效果。“一种新的半监督避开鞍点聚类方法”:将成对约束作为弱半监督信息引入谱聚类模型中,由此提出了一种新的半监督避开鞍点聚类方法(Semi-Supervised Negative Curvature Cl...
【文章来源】:云南师范大学云南省
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
偏差的平方增长示意图
第2章一种鲁棒的模糊聚类方法102.4.2鲁棒性分析FCM聚类模型中的度量距离是欧氏距离的平方,故由噪音点或野值点[23]导致的偏差会按“平方”幅度被放大,从而使得FCM缺乏鲁棒性。在模型(2.5)中,若ix是一个野值点,则它到聚类中心jv的偏差按平方“2jivx”增长得很大,从而统治了非野值点对应的项。虽然“距离平方”带来FCM的光滑性,方便了后续的求导运算,但这也将造成FCM对野值点很敏感,缺乏鲁棒性。图1是“平方”增长示意图。由图可知,随着偏差的增大,“偏差平方”也随之增长而且增长幅度和坡度越来越大。故当野值点离中心相对较远时,FCM算法中的距离平方“2jivx”会严重影响聚类的鲁棒性,使得类中心朝着野值点偏离。即一个远离中心的野值点能对聚类中心的先择造成很大影响,甚至偏离该类中大部分点所在的区域,很明显这是我们在实际中要避免的情形。图2.1偏差的平方增长示意图2.5RFCM:一种鲁棒的FCM模型2.5.1模型建立为了解决FCM缺少鲁棒性的不足,本文提出用距离jiijvxd来替换目标函数(2.5)式中的2jiijvxd,从而来降低野值点对聚类中心的干扰。当野值点或噪声离类中心jv相对较远时,相比FCM中的“平方”距离2jiijvxd选劝非平方”距离jiijvxd会使得模型的鲁棒性更好。图2对比了“平方”和“非平方”距离对偏差的放大示意图。从中可知“非平方”距离对偏差的放大幅度远小于“平方”距离,这说明“非平方”距离更具有鲁棒性。图2.2“平方”和“非平方”距离比较示意图
第2章一种鲁棒的模糊聚类方法16图2.3RFCM和FCM在四种数据集上不同模糊指数m下的聚类纯度2.9本章小结为了提高聚类效果,本文提出了基于“非平方”距离的FCM聚类算法RFCM。在RFCM中,我们将FCM的目标函数中度量样本到类(簇)中心的“平方”距离,替换成一般的“非平方”距离,其作用很大程度缩短了样本中噪音或野值点到类中心的距离,从而降低了野值点对类中心的影响,有更好的鲁棒性。通过实验结果可得出,RFCM方法比FCM具有更高的聚类纯度和更好的鲁棒性。
【参考文献】:
期刊论文
[1]AGNES算法在K-means算法中的应用[J]. 周爱武,潘勇,崔丹丹,肖云. 微型机与应用. 2011(23)
[2]遗传+模糊C-均值混合聚类算法[J]. 陈金山,韦岗. 电子与信息学报. 2002(02)
本文编号:2928046
【文章来源】:云南师范大学云南省
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
偏差的平方增长示意图
第2章一种鲁棒的模糊聚类方法102.4.2鲁棒性分析FCM聚类模型中的度量距离是欧氏距离的平方,故由噪音点或野值点[23]导致的偏差会按“平方”幅度被放大,从而使得FCM缺乏鲁棒性。在模型(2.5)中,若ix是一个野值点,则它到聚类中心jv的偏差按平方“2jivx”增长得很大,从而统治了非野值点对应的项。虽然“距离平方”带来FCM的光滑性,方便了后续的求导运算,但这也将造成FCM对野值点很敏感,缺乏鲁棒性。图1是“平方”增长示意图。由图可知,随着偏差的增大,“偏差平方”也随之增长而且增长幅度和坡度越来越大。故当野值点离中心相对较远时,FCM算法中的距离平方“2jivx”会严重影响聚类的鲁棒性,使得类中心朝着野值点偏离。即一个远离中心的野值点能对聚类中心的先择造成很大影响,甚至偏离该类中大部分点所在的区域,很明显这是我们在实际中要避免的情形。图2.1偏差的平方增长示意图2.5RFCM:一种鲁棒的FCM模型2.5.1模型建立为了解决FCM缺少鲁棒性的不足,本文提出用距离jiijvxd来替换目标函数(2.5)式中的2jiijvxd,从而来降低野值点对聚类中心的干扰。当野值点或噪声离类中心jv相对较远时,相比FCM中的“平方”距离2jiijvxd选劝非平方”距离jiijvxd会使得模型的鲁棒性更好。图2对比了“平方”和“非平方”距离对偏差的放大示意图。从中可知“非平方”距离对偏差的放大幅度远小于“平方”距离,这说明“非平方”距离更具有鲁棒性。图2.2“平方”和“非平方”距离比较示意图
第2章一种鲁棒的模糊聚类方法16图2.3RFCM和FCM在四种数据集上不同模糊指数m下的聚类纯度2.9本章小结为了提高聚类效果,本文提出了基于“非平方”距离的FCM聚类算法RFCM。在RFCM中,我们将FCM的目标函数中度量样本到类(簇)中心的“平方”距离,替换成一般的“非平方”距离,其作用很大程度缩短了样本中噪音或野值点到类中心的距离,从而降低了野值点对类中心的影响,有更好的鲁棒性。通过实验结果可得出,RFCM方法比FCM具有更高的聚类纯度和更好的鲁棒性。
【参考文献】:
期刊论文
[1]AGNES算法在K-means算法中的应用[J]. 周爱武,潘勇,崔丹丹,肖云. 微型机与应用. 2011(23)
[2]遗传+模糊C-均值混合聚类算法[J]. 陈金山,韦岗. 电子与信息学报. 2002(02)
本文编号:2928046
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2928046.html