面向聚类评价的有效内部指标框架研究

发布时间:2021-01-27 01:13
  过去几十年,研究者们提出了大量适用于硬聚类的聚类有效性指标。然而,现有的聚类评价方法会受到各种数据特征的影响。例如,带有噪声的数据、不同密度的数据、任意形状的数据等等都可能影响内部指标的性能。针对以上问题,本文在分析影响聚类算法性能的主要因素的基础上研究了聚类有效性评价,提出了三种新的聚类有效性内部指标。主要工作内容如下:(1)为了克服现有的度量方法作为单连接聚类的簇内紧密度的缺点,本文使用最小生成树的最长边作为簇内紧密度,提出了一种针对单链接算法的综合聚类有效性指标(synthetical clustering validity index,简称SCV)。该指标根据统计方法的不同又可以分为amSCV、gmSCV两种。(2)SCV指标在评价单链接算法时表现良好,但是不适用其他层次聚类算法。为此,本文提出了一种广义综合聚类有效性指标(generalized synthetical clustering validity index,简称GSCV)。该指标采用自适应相似性度量策略对聚类结果进行评价,避免了聚类算法与内部指标之间的相似性度量方法的不兼容性造成的内部指标性能下降的情况。根据统计... 

【文章来源】:安徽大学安徽省 211工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

面向聚类评价的有效内部指标框架研究


聚类有效性评价内部指标的使用步骤

示意图,数据集,最小生成树,链接


第三章层次聚类的有效性评价指标18但对于不平衡分布的数据集不能提供准确的簇数量。本文通过图3.1所示的二维数据集的分布示意图来说明这种情况。图3.1两种紧密度不同的数据集图3.1中,图(a)和图(b)的左右数据点集的分布分别对应相同,左右数据点集之间的最小距离不同。图(a)左右两数据点集之间的最小距离使用1T表示。图(b)左右两数据点集之间的最小距离使用2T表示。图(a)上生成的最小生成树(MST)的权值之和用1sm表示,图(b)上生成的最小生成树的权值之和用sm2表示。如果簇内紧密度使用其最小生成树的平均权重进行度量,那么图(a)和图(b)对应的簇紧密度的差异性可以使用公式1212111smsmTTdifnnn进行计算。由此可见,当样本的数量较大时,dif的值趋于0,即图(a)和(b)对应簇的紧密度(由MST的平均权重反映)几乎相同。然而,事实上,图(b)的簇内紧密度相对于图(a)小得多。此外,对于最小生成树的最长边比其他边长很多的簇(数据呈现不平衡分布),以MST的平均权值作为簇内紧密度并不能真正反映簇内的紧密性。在上述讨论的基础上,为了克服现有的度量方法作为单链接算法的簇内紧密度的缺点,本文提出使用MST的最长边作为簇内紧密度。由于单链接聚类结果是通过连续切割长边得到的,所以单链接算法可以看作MST的应用。在此过程中,通过切割MST的最长边,将一个簇分为两个簇。在内部指标中,簇的紧密度的目标是衡量簇内样本的相似性程度。簇内紧密度越小,样本越分散,一个簇更具有分裂成多个子簇的倾向。从此可以看出,MST的最长边可以合理地描述

示意图,数据集,示意图,分离度


安徽大学硕士学位论文25图3.2十五个模拟数据集分布示意图Cross-parallel3、Parallel3-1、Parallel4和Parallel4-1具有线形结构,它们具有不同的簇间分离度。Ring2、Circle4、Circle4-1、D3-circle-cross3、D3-circle3和D3-circle3-1具有环形结构,其中Circle4和Circle4-1、D3-circle3和D3-circle3-1具有不同的簇间分离度。Face5和D3-line-circle3是具有复杂结构的数据集。


本文编号:3002151

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3002151.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5972***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com