复杂高维数据的密度峰值快速搜索聚类算法
发布时间:2025-01-04 07:57
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。
【文章页数】:8 页
【部分图文】:
本文编号:4023145
【文章页数】:8 页
【部分图文】:
图2 基于自动编码器的图像聚类框架
图像通常是高维数据,图像的分辨率决定其维度,像素特征很难表示出同类图像的相似性和不同类图像的差异性。因此,聚类图像数据的技术点包括图像数据的降维和特征抽取/表示。近年来,大量研究表明深层网络可以从数据中自动学习到更好的特征表示[24]。但是,随着网络层数的增多,基于BP算法的训练....
图1 DPC算法在Flame上的聚类中间结果和最终结果
图1展示了DPC算法在Flame数据集上的聚类中间结果和最终结果,可以看出聚类效果并不理想。由于Flame形状特殊,中间部分较紧凑地分布成圆形的点属于一类(花),向左右延伸较远的点属于另一类(叶子)。当设置dc为所有样本点对的欧氏距离(从小到大排序后)的2%位置值时,聚类先按照正....
图7 3种算法在CAS-PEAL-R1数据集上的聚类结果
表33种聚类算法在3个人脸数据集上的性能对比Table3ClusteringperformancecomparisonofthreealgorithmsonthreefacedatasetsAlgorithmBioIDCAS-PEAL-R1IMM....
图3 4种算法在R15数据集上的聚类结果
本组实验分别在Path-based2,Jain,Flame和R15这4个人工数据集上进行,主要检验基于流形距离的MDPC算法的聚类性能,结果如图3所示。从图3中可以看出,这4种算法都提供了很好的聚类可视化结果,其中K-means,DPC和MDPC算法的ACC,AMI和ARI都为1....
本文编号:4023145
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/4023145.html