群体聚类算法研究
发布时间:2020-12-11 09:03
聚类分析是一种典型的无监督学习问题。与有监督学习相比,聚类分析适用于在没有足够的先验知识的问题,分析研究对象间的相似性模式,从而将无标记的物理对象或者抽象对象划分为若干个组,划分得到的组称为簇。为了能将对象划分到正确的簇中,算法需要挖掘出对象间的相似性。群体智能是一类常用的优化技术,是求解聚类问题的方法之一。基于群体智能的聚类方法常选择一种基于种群的随机搜索算法作为其框架,将种群中的个体编码为一个或一组簇中心向量。随着种群的迭代进化,个体可以同时搜索解空间的不同区域,由此可以找到全局最优解。目前,现有的大多数基于群体智能的聚类算法旨在找到一组簇中心。然而,这种基于中心的聚类方法难以处理具有不规则形状的簇。同时,现有的方法中还存在一些不足,比如难以确定种群的规模和如何初始化种群等。本文使用基于群体智能的方法来解决聚类问题。本文的主要内容包括以下两个方面。(1)提出了群体聚类算法SCA。在SCA算法中,每个数据样本编码为种群中的个体。因此,种群的规模与数据集的规模保持一致;采用核密度估计作为适应度函数来评估粒子的密度;为粒子选择leader粒子来协助粒子飞行,从而降低算法的误差;采用动态的...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图3.1?SCA算法在Aggregation数据集上的聚类过程??3.4.2实验设置??在本节中,SCA算法的性能将与四个经典的聚类算法进?
?^?j??I?\?i?'??j?f—??x?_???w.?N?I?I?\??、????\??.?j??]?、???...<???.?>?UU1-I4BHI<I>1>XU?I;?1.?W?y?■??;■?<.?.-<>Uar|!MS??■?t???I?■????11?UUUK^?I?K?IV?M:IU:l>..1K:-l>^>.U>inMP?rSK???!?■???<?>?????(c)?D31数据集上的结果?(f)?DIM512数据集上的结果??图4.2欠-means算法在人工数据集上的within-sum-of-square图??4.4.3实验结果与分析??1.人工数据集上的实验结果??本小节选择了六个带有真实簇划分的人工数据集来评估所提出的SCA2??算法的性能,分别是?Aggregation[56]、Flame[57]、DS850159]、R15[58】、D31[58]和??DIM512l91l其中,DIM512数据集使用了最大最小值归一化进行预处理。表4.1中??给出了每个数据集的详细描述,而且前五个数据集的数据分布可分别从图4.6、??图4.7、图4.8、图4.10以及图4.11中的第一个子图中获得,其他图展示的是每个算??法在20次独立实验结果中根据最高的ARI值选出的最好聚类结果。对于DB-??SCAN算法和OPTICS算法,它们识别出的噪声均使用“x”来标记。??测试的算法在人工数据集上的指标值如表4.4所示,该表中还给出了算法所??获指标值的排名,并在最后一行列出了算法在指标值上的排名总和。对于SCA2??算法、SCA算法、Swarm{5}RCEf+算法和A:-me
tion数据集上的结果??r?\?i?I??}??\?!???!.?\?I?\??\?*_?\??>.?、、?V??、?、一?’?'?、、、??"?、?.....-?.丨???'?????I?:?>?-???*?'????KUI:Ut*l;f?l*VBK3tn;lf>^>i;.?Mr*KitLri>r?-???i???■????????M—??(e)?Ecoli数据集上的结杲?(f)?Appendicitis数据集上的结果??图4.3?■K'-means算法在真实数据集上的within-sum-of-square图??则形状族的数据集Aggregation、Flame以及DS850上的聚类结果。在这些数据??集上,SCA2算法均获得了最高的F-measure、NMI和ARI值,并可从图4.6(b)、??4.7(b)和4.8(b)中看出,SCA2算法正确地将大部分的点划分到了相应的簇中。类??似地,SCA算法在这些数据集上获得次优的聚类结果。因此,可以说SCA2算法??和SCA算法均可处理具有不规则形状的簇。值得一提的是,SCA2算法和SCA??算法都可以正确识别出Flame数据集中的簇结构。然而,从图4.6(e)中可以观察??到,由于时部法则在Aggregation数据集上为欠-means算法估计了较小的A:值,??因而A:-means算法将Aggregation数据集中左下角的两个小簇合并。而如图4.7(e)??所示,时部法则在Flame数据集上为A:-means算法估计了较大的值,因而将??Flame数据集中位于下面的簇划分开。类似地,如图4.6(f)和4.7(f
本文编号:2910254
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图3.1?SCA算法在Aggregation数据集上的聚类过程??3.4.2实验设置??在本节中,SCA算法的性能将与四个经典的聚类算法进?
?^?j??I?\?i?'??j?f—??x?_???w.?N?I?I?\??、????\??.?j??]?、???...<???.?>?UU1-I4BHI<I>1>XU?I;?1.?W?y?■??;■?<.?.-<>Uar|!MS??■?t???I?■????11?UUUK^?I?K?IV?M:IU:l>..1K:-l>^>.U>inMP?rSK???!?■???<?>?????(c)?D31数据集上的结果?(f)?DIM512数据集上的结果??图4.2欠-means算法在人工数据集上的within-sum-of-square图??4.4.3实验结果与分析??1.人工数据集上的实验结果??本小节选择了六个带有真实簇划分的人工数据集来评估所提出的SCA2??算法的性能,分别是?Aggregation[56]、Flame[57]、DS850159]、R15[58】、D31[58]和??DIM512l91l其中,DIM512数据集使用了最大最小值归一化进行预处理。表4.1中??给出了每个数据集的详细描述,而且前五个数据集的数据分布可分别从图4.6、??图4.7、图4.8、图4.10以及图4.11中的第一个子图中获得,其他图展示的是每个算??法在20次独立实验结果中根据最高的ARI值选出的最好聚类结果。对于DB-??SCAN算法和OPTICS算法,它们识别出的噪声均使用“x”来标记。??测试的算法在人工数据集上的指标值如表4.4所示,该表中还给出了算法所??获指标值的排名,并在最后一行列出了算法在指标值上的排名总和。对于SCA2??算法、SCA算法、Swarm{5}RCEf+算法和A:-me
tion数据集上的结果??r?\?i?I??}??\?!???!.?\?I?\??\?*_?\??>.?、、?V??、?、一?’?'?、、、??"?、?.....-?.丨???'?????I?:?>?-???*?'????KUI:Ut*l;f?l*VBK3tn;lf>^>i;.?Mr*KitLri>r?-???i???■????????M—??(e)?Ecoli数据集上的结杲?(f)?Appendicitis数据集上的结果??图4.3?■K'-means算法在真实数据集上的within-sum-of-square图??则形状族的数据集Aggregation、Flame以及DS850上的聚类结果。在这些数据??集上,SCA2算法均获得了最高的F-measure、NMI和ARI值,并可从图4.6(b)、??4.7(b)和4.8(b)中看出,SCA2算法正确地将大部分的点划分到了相应的簇中。类??似地,SCA算法在这些数据集上获得次优的聚类结果。因此,可以说SCA2算法??和SCA算法均可处理具有不规则形状的簇。值得一提的是,SCA2算法和SCA??算法都可以正确识别出Flame数据集中的簇结构。然而,从图4.6(e)中可以观察??到,由于时部法则在Aggregation数据集上为欠-means算法估计了较小的A:值,??因而A:-means算法将Aggregation数据集中左下角的两个小簇合并。而如图4.7(e)??所示,时部法则在Flame数据集上为A:-means算法估计了较大的值,因而将??Flame数据集中位于下面的簇划分开。类似地,如图4.6(f)和4.7(f
本文编号:2910254
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2910254.html