基于图论的聚类技术研究及应用

发布时间：2020-08-21 20:04

【摘要】：聚类技术是人工智能与模式识别方向的一个重要研究领域,基于聚类技术的研究与应用也早已被用在社会的各个方向。聚类技术的目的是将数据场景中未知标签的样本点按照特定的聚类方式以及数据之间的内在关系聚成相应的类别。图是数学中的基本模型,由点和边等基本元素组成,基于图论的聚类技术以点和边为出发点,点代表数据元素,边用来描述数据元素之间的各种关系。谱聚类方法作为聚类技术的一个研究分支,以图论为理论基础,利用数据样本间的相似度矩阵构建(广义)特征系统,再对特征系统分解出的特征向量聚类得到数据的类别。谱聚类本质上是按照数据之间的关系进行划分,找到图论中数据之间的最优划分问题。谱聚类基于图论技术且同时具有全局最优解,被研究和应用在多个领域,以最近一些基于成熟理论发展的相关研究成果为基础,本文在对图论聚类技术谱聚类知识系统学习后,展开了如下的两个主要的研究工作。(1)在目标数据受到噪声或污染的情况下,聚类算法往往会偏移想要达到的聚类效果。针对此问题,利用迁移学习机制,以谱聚类算法为理论指导,本文提出了域间F-范数正则化迁移谱聚类方法。该方法通过第K最近邻原则为目标域数据从源域(历史数据)获取等量的可参照数据样本,然后基于域间F范数正则化机制,迁移这些源域可参照数据样本的谱聚类特征矩阵,辅助目标域数据的最后的聚类过程,最终提高聚类效果,以解决实际问题中由于各种污染或干扰引起的聚类问题。(2)针对目标数据集受离群值,干扰颜色以及大中型图像分割中时间耗费的影响问题,本文以谱聚类为基础,结合半监督学习,提出了可调整的亲合度与架构共同约束的谱聚类框架,并将此框架应用到实际的图像分割实验中。该方法能够充分的利用好半监督信息,将先验知识整合到规范化谱聚类中。一方面,此框架基于特定的抽样方法和经典KNN算法,极大的缩短了中大型图像的分割时间;另一方面,受益于所设框架的约束以及平衡因子的变动,更灵活的适应任何半监督约束场景。
【学位授予单位】：江南大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP311.13;O157.5
【图文】：

示意图,特征矩阵,原数据,聚类

来辅助目标域的谱聚类过程。为此本文基于第 K 近邻(K域每一数据样本从源域挑选一可用来迁移历史聚类知识的样本的历史特征向量组成历史特征矩阵，结合 F-范数正则目标函数完成聚类。该算法具有三大特点：过迁移历史特征矩阵，TSC-IDFR 实现了对历史知识的有高了目标算法在受干扰或噪声影响的目标数据集上的聚类C-IDFR 从源域迁移的是历史特征矩阵这一高级历史知识定程度上可以满足源域隐私保护的要求；过第 K 近邻点策略和为 F-范数正则化项引入正则化系数有效性验证指标，TSC-IDFR 可以较灵活地决定关于源域务于目标域的谱聚类过程。目标域的知识迁移所介绍，谱聚类最终将进行基于拉普拉斯矩阵 L 的特征量（对应于前 k 个最小的特征值）构成的特征矩阵。也据信息从原数据集 X（N×d）变换成特征矩阵 U（N×k），dk

架构图,算法设计,架构,特征分解

ep 3:对 ( )进行特征分解，取前 k 个最小特征值对应的特征向量并列并进行归一化操作得到特征矩阵 ( )；ep 4:根据式 3.8,输入正则化系数 λ，新的谱聚类的拉普拉斯矩阵等于 ( ) ( ) ( ) ；ep 5 :对步骤 4 得到的新拉普拉斯矩阵做特征分解，最后通过 k-means 聚特征矩阵的每一行进行聚类ep 6 : 输出聚类实验结果。C-IDFR 的整体设计思想如图 3.2 所示：源域历史数据目标域目标数据

纹理图像,数据集

效学习和利用。具体说就是通过第 K 近邻点策略和 F-范数正则化系数的调节，IDFR 可以较灵活地决定关于源域历史知识的借鉴程度，最终服务于目标域的谱聚。此外，TSC-IDFR 迁移的是历史特征矩阵，这还可以满足源域隐私保护的特定这些结论与我们在人造数据场景中所得结论是一致的；）TII-KT-CM 算法的实际性能始终优于 TI-KT-CM 算法，这是因为 TI-KT-CM 仅源域历史类中心这一高级知识，而 TII-KT-CM 同时借鉴了源域历史类中心和关于中心的模糊隶属度知识，即 TII-KT-CM 具有更强的历史知识借鉴学习能力，因此比 TI-KT-CM 更有效。而在这些数据集上我们所提 TSC-IDFR 算法更优于T-CM 算法，这进一步佐证了本文同时结合迁移学习、谱聚类和 F 范数正则化等机的迁移谱聚类方法有效性；）图 3.5(a)~(d)示意了参数 K 对 TSC-IDFR 算法的性能影响情况。结合给定的聚类指标，我们可以为每个数据集找到一个最优 K 值。图 3.5(e)~(l)示意了参数λ和TSC-IDFR 的聚类性能影响情况，总体上看,取最佳参数设置时，TSC-IDFR 对正则λ相对稳定，对高斯径向基窗宽参数σ相对稍敏感，但在合适区间范围内，其聚总体上波动不大。

【参考文献】