类内和类间距离分布函数的确定及应用
发布时间:2020-04-24 20:42
【摘要】:类内、类间距离分布函数的研究具有重要的现实意义,本文我们主要利用参数统计的方法来确定类内、类间距离的分布函数。基于类内、类间的分布函数,我们提出了基于类内距离参数估计的文本聚类评价方法,同时确定了基于类内、类间距离比值型(ratio)指标的临界值。首先,文章研究了基于类内距离参数估计的文本聚类评价方法,发现当聚类类别数过小或与真实类别数相同时,该方法是可行的;而且它可以减弱初始类中心的选取对K-means算法的影响,提高聚类结果的准确性。其次,本文对基于类内、类间距离的比值型(ratio)指标的临界值也进行了研究,我们通过实验确定了聚类指标真实值在上、下界范围区间的位置,该位置可以作为评判基于类内、类间距离的比值型(ratio)指标好坏的依据。
【图文】:
图 3.2 LJ60 的山丘图从上图中可以看出,三个山丘代表三个不同的类群,每个山丘的高度都较颜色为红色。因此,,每个类群包含的对象都具有较高的相似性且类内标准从而可推断 LJ60 应聚成 3 类。
图 3.4 ZD60 的山丘图以看出,尽管该数据矩阵被要求聚成 3 类,但图中,被标号为 0、1 的山丘具有较高的高度,说明只的相似性且类内标准差较低。因此,该可视化图形好。整及其结果检验数据集 LJ60、LJ200 和 ZD60 进行了实验。首先,与真实类别的分布进行对比,直观上可以看出被调;其次,利用 R 画出类内距离分布的折线图,并详整过程;最后,利用 purity值、F 值等指标对聚类结中心的选取方式的影响,在实验的最后增加了两种
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81
本文编号:2639377
【图文】:
图 3.2 LJ60 的山丘图从上图中可以看出,三个山丘代表三个不同的类群,每个山丘的高度都较颜色为红色。因此,,每个类群包含的对象都具有较高的相似性且类内标准从而可推断 LJ60 应聚成 3 类。
图 3.4 ZD60 的山丘图以看出,尽管该数据矩阵被要求聚成 3 类,但图中,被标号为 0、1 的山丘具有较高的高度,说明只的相似性且类内标准差较低。因此,该可视化图形好。整及其结果检验数据集 LJ60、LJ200 和 ZD60 进行了实验。首先,与真实类别的分布进行对比,直观上可以看出被调;其次,利用 R 画出类内距离分布的折线图,并详整过程;最后,利用 purity值、F 值等指标对聚类结中心的选取方式的影响,在实验的最后增加了两种
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81
【参考文献】
相关期刊论文 前4条
1 王千;王成;冯振元;叶金凤;;K-means聚类算法研究综述[J];电子设计工程;2012年07期
2 郑军;王巍;杨武;杨永田;;基于类间距离参数估计的文本聚类评价方法[J];计算机工程;2009年09期
3 杨燕;靳蕃;KAMEL Mohamed;;聚类有效性评价综述[J];计算机应用研究;2008年06期
4 张惟皎,刘春煌,李芳玉;聚类质量的评价方法[J];计算机工程;2005年20期
本文编号:2639377
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2639377.html