基于最大化模块度的联合聚类算法研究
发布时间:2022-02-13 21:22
联合聚类的目标是对二维列联表产生有意义的划分,可以根据行列间的对偶性同时对列联表的行和列进行分组。与传统的单向聚类相比,联合聚类可以有效识别子空间并揭示行列之间的隐含关系,已成为解决高维稀疏数据聚类问题的最重要方法之一。随着数据科学的飞速发展,数据集形式越来越丰富,传统的联合聚类方法在处理如重叠数据、高阶异构数据时有局限性,如何更好地联合聚类此类数据成为具有意义的研究问题。模块度是一种常用的衡量社区划分质量的标准,同时也是图聚类方法中常见的质量评价标准。通过对现有联合聚类及模块度相关工作的总结分析,主要在基于模块度的可重叠联合聚类和分层高阶联合聚类两个方面展开了深入的研究,并取得了如下研究成果:第一,针对传统的联合聚类方法无法挖掘重叠数据以及离群点等局限,提出一种最大化模块度的可重叠联合聚类方法。该方法允许行、列簇中的数据重叠,并能识别数据中的离群点。首先设计统一框架,在基于模块度的目标函数中加入使数据可重叠与非穷尽的约束,其中控制重叠程度和非穷尽程度的参数非常易于理解;然后通过迭代的行列交替优化过程使目标函数中的模块度最大化,高效地获得可重叠且非穷尽的联合聚类结果。第二,传统联合聚类...
【文章来源】:西北师范大学甘肃省
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
星状高阶异构数据
s)(s=1,2,…,N)的聚类结果的集合(s)C(s=1,2,…,N)。样本集合O的分裂聚类结果集合R={R1,R2,…,Rh,…RH},其中第h次分裂聚类结果为包含h个样本簇的集合Rh={rh1,rh2…,rhh};特征空间F(s)的分裂聚类结果集合(s)()()()()12,,,,sssshHCCCCC,其中第h次分裂聚类结果为包含h个样本簇的集合()()()()12,,,sssshhhhhCccc。在第h次分裂聚类结果中,样本簇rhl与第s个特征空间中相同簇号的特征簇()hlsc构成的联合簇记作(s)hlrc;rhl在每个特征空间中联合簇的集合记作(1)(2)(){,,,}hlhlNlhhlRCrcrcrc。图4-1MHHCC算法流程示例具体的,MHHCC算法使用局部分裂算法(MCC)分别获得第h次聚类结果中的h个联合簇集合(1)(2)(),,,NhlhllhhlRrcrccCr(l=1,2,…,h)的最优划分并分别计算获得的模块度增长值ΔQ(Ahl,Chl)(l=1,2,…,h),对获得最大模块度增长值ΔQ(Ahl*,Chl*)的联合簇集合RChl*中的联合簇()*shlrc按照最优划分方式真实地划分产生第h+1次聚类结果。如此循环迭代直到达到指定的簇数或所有联合簇集合被划分都无法使模块度增长为止。以图4-1为例描述算法的执行过程。图4-1示例中的数据包含由中心数据和三种特征数据构成的三个特征空间,MHHCC将样本集合作为第一层样本聚类结果R1中唯一的簇r11,并将每个特征空间中的特征集合作为该特征空间的第一层特征聚类结果()1sC中唯一的簇()11sc,使用MCC处理(1)(2)(3)11111111rc,rc,cRCr,即在三个特征空间中将联合簇()11src(s=1,2,3)划分生为两个子联合簇,该划分使模块度增长值ΔQ(A11,C11)最大,生成第二层样本聚类结果R2={r21,r22}和第二层特征聚类结果()()()22122,sssCcc(s=1,2,3)。在分裂为第三次联合聚类结果R3和()3sC(s=1,2,3)时,
本文编号:3623940
【文章来源】:西北师范大学甘肃省
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
星状高阶异构数据
s)(s=1,2,…,N)的聚类结果的集合(s)C(s=1,2,…,N)。样本集合O的分裂聚类结果集合R={R1,R2,…,Rh,…RH},其中第h次分裂聚类结果为包含h个样本簇的集合Rh={rh1,rh2…,rhh};特征空间F(s)的分裂聚类结果集合(s)()()()()12,,,,sssshHCCCCC,其中第h次分裂聚类结果为包含h个样本簇的集合()()()()12,,,sssshhhhhCccc。在第h次分裂聚类结果中,样本簇rhl与第s个特征空间中相同簇号的特征簇()hlsc构成的联合簇记作(s)hlrc;rhl在每个特征空间中联合簇的集合记作(1)(2)(){,,,}hlhlNlhhlRCrcrcrc。图4-1MHHCC算法流程示例具体的,MHHCC算法使用局部分裂算法(MCC)分别获得第h次聚类结果中的h个联合簇集合(1)(2)(),,,NhlhllhhlRrcrccCr(l=1,2,…,h)的最优划分并分别计算获得的模块度增长值ΔQ(Ahl,Chl)(l=1,2,…,h),对获得最大模块度增长值ΔQ(Ahl*,Chl*)的联合簇集合RChl*中的联合簇()*shlrc按照最优划分方式真实地划分产生第h+1次聚类结果。如此循环迭代直到达到指定的簇数或所有联合簇集合被划分都无法使模块度增长为止。以图4-1为例描述算法的执行过程。图4-1示例中的数据包含由中心数据和三种特征数据构成的三个特征空间,MHHCC将样本集合作为第一层样本聚类结果R1中唯一的簇r11,并将每个特征空间中的特征集合作为该特征空间的第一层特征聚类结果()1sC中唯一的簇()11sc,使用MCC处理(1)(2)(3)11111111rc,rc,cRCr,即在三个特征空间中将联合簇()11src(s=1,2,3)划分生为两个子联合簇,该划分使模块度增长值ΔQ(A11,C11)最大,生成第二层样本聚类结果R2={r21,r22}和第二层特征聚类结果()()()22122,sssCcc(s=1,2,3)。在分裂为第三次联合聚类结果R3和()3sC(s=1,2,3)时,
本文编号:3623940
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3623940.html