基于复杂网络节点特性的社团检测算法的研究
发布时间:2020-12-13 00:13
随着现代网络世界的快速普及,数据挖掘技术也越来越成熟。在此条件下,复杂网络成为了数据挖掘范畴内的热门研究课题。而复杂网络这一课题当中的热点话题之一就是社团检测,聚类分析是其探究的主要技术手段。对复杂网络中的社团结构进行分析可以协助研究人员更深刻地理解复杂网络的结构性能及其演化过程。论文中具体论述了复杂网络的网络模型、聚类分析的基本概念以及常见的社团检测算法。在对复杂网络中的结构和性能进行分析、研究之后,论文针对复杂网络节点特性提出了两个性能更优的社团检测算法,并将其成功地应用到图聚类中。(1)提出了一个基于节点邻近度的社团检测算法—CS-Cluster。该算法用于对带有语义信息的节点进行聚类检测。经过研究发现,大部分复杂网络中的社团检测算法都是在节点拓扑结构方面进行研究、分析而提出的,它们忽略了节点自身的语义特性,这就导致社团检测的结果不准确。基于此现象,论文提出了一个新的概念(节点邻近度)来完成节点间的相异度计算;引入关联度和匹配度的概念完成节点间结构相异度的计算;之后重新定义了初始聚类中心点的选取规则。该方法避免了人为判断带来的弊端,提高了聚类的精确性。最后,CS-Cluster算...
【文章来源】:西安理工大学陕西省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Dolphin 网络社团检测结果
基于节点核心度的重叠社团检测算法37图4-3Dolphin网络社团检测结果Fig.4-3TestresultsonDolphin图4-4表示的是算法在足球俱乐部网络上进行社团发现的结果,参数取值为0.08,我们的算法将该网络分割成11个社团,分别用不同的颜色代表,检测到的重叠节点为83,81。图4-4Collegefootball网络社团检测结果Fig.4-4TestresultsonCollegefootball图4-5表示的是在Zachary’sKarateClubnetwork数据集上的社团划分结果,08.0,我们采用的算法将该网络划分成两个社团1P和2P,其中社团1P的中心节点为2,2P社团的中心节点为33,重叠节点为10,3。
西安理工大学工学硕士专业学位论文38图4-5Zarchary’skarateclub网络重叠社团检测结果Fig.4-5DetectionresultsofoverlappingclusteringonZarchary"skarateclub此外,我们还在三个数据集上分析了参数的取值范围对重叠节点的数目产生的影响,如下表所示:表4-4参数的取值对重叠节点数目的影响Tab.4-4Influenceofparametervaluesonthenumberofoverlappingnodes数据集重叠点数目重叠点Dolphin0<<0.052{8,20}0.05<13{8,20,40}CollegeFootball0<<0.041{83}0.04<12{81,83}Zachary’sKarateClub0<<0.031{3}0.03<12{3,10}最后,我们分别将4个对比算法ACC、GN、NLA以及本章提出的NCD算法运用在三个切实有效的数据集上执行5次,并对其平均值结果进行对比,其中参数统一设置为0.08。图4-6展示了4个对比算法分别在三个真实有效的数据集上模块度的取值对比。若模块度的值越高,则说明社团的划分结果越准确;实验结果表明NCD算法在三个数据集上的模块度值都优于其它三个算法;在Zachary’sKarateClub数据集上,GN算法和ACC算法的模块度与其它两个算法相比,值比较低,说明了GN算法和ACC算法对Zachary’sKarateClub网络进行社团划分的结果较差;在海豚网络数据集中,GN算法的模块度最低,说明其划分的结果不理想,ACC算法和NLA算法的模块度分别为0.494和0.482,说明其划分结果相差不大;在CollegeFootball网络中,我们提出的NCD算法的模块度最高,值为0.592,说明它的社团检测结果最好,其次,NLA算法的模块度值为0.532,说明其划分效果良好;就整体而言,在三个数据集上GN算法的模块度值最低,因此可以判断出GN算法不能有效地进行社团的划分。
【参考文献】:
期刊论文
[1]基于新的距离度量的K-Modes聚类算法[J]. 梁吉业,白亮,曹付元. 计算机研究与发展. 2010(10)
[2]复杂网络及其在国内研究进展的综述[J]. 刘建香. 系统科学学报. 2009(04)
[3]基于社会网络可视化分析的数据挖掘(英文)[J]. 杨育彬,李宁,张瑶. 软件学报. 2008(08)
本文编号:2913518
【文章来源】:西安理工大学陕西省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Dolphin 网络社团检测结果
基于节点核心度的重叠社团检测算法37图4-3Dolphin网络社团检测结果Fig.4-3TestresultsonDolphin图4-4表示的是算法在足球俱乐部网络上进行社团发现的结果,参数取值为0.08,我们的算法将该网络分割成11个社团,分别用不同的颜色代表,检测到的重叠节点为83,81。图4-4Collegefootball网络社团检测结果Fig.4-4TestresultsonCollegefootball图4-5表示的是在Zachary’sKarateClubnetwork数据集上的社团划分结果,08.0,我们采用的算法将该网络划分成两个社团1P和2P,其中社团1P的中心节点为2,2P社团的中心节点为33,重叠节点为10,3。
西安理工大学工学硕士专业学位论文38图4-5Zarchary’skarateclub网络重叠社团检测结果Fig.4-5DetectionresultsofoverlappingclusteringonZarchary"skarateclub此外,我们还在三个数据集上分析了参数的取值范围对重叠节点的数目产生的影响,如下表所示:表4-4参数的取值对重叠节点数目的影响Tab.4-4Influenceofparametervaluesonthenumberofoverlappingnodes数据集重叠点数目重叠点Dolphin0<<0.052{8,20}0.05<13{8,20,40}CollegeFootball0<<0.041{83}0.04<12{81,83}Zachary’sKarateClub0<<0.031{3}0.03<12{3,10}最后,我们分别将4个对比算法ACC、GN、NLA以及本章提出的NCD算法运用在三个切实有效的数据集上执行5次,并对其平均值结果进行对比,其中参数统一设置为0.08。图4-6展示了4个对比算法分别在三个真实有效的数据集上模块度的取值对比。若模块度的值越高,则说明社团的划分结果越准确;实验结果表明NCD算法在三个数据集上的模块度值都优于其它三个算法;在Zachary’sKarateClub数据集上,GN算法和ACC算法的模块度与其它两个算法相比,值比较低,说明了GN算法和ACC算法对Zachary’sKarateClub网络进行社团划分的结果较差;在海豚网络数据集中,GN算法的模块度最低,说明其划分的结果不理想,ACC算法和NLA算法的模块度分别为0.494和0.482,说明其划分结果相差不大;在CollegeFootball网络中,我们提出的NCD算法的模块度最高,值为0.592,说明它的社团检测结果最好,其次,NLA算法的模块度值为0.532,说明其划分效果良好;就整体而言,在三个数据集上GN算法的模块度值最低,因此可以判断出GN算法不能有效地进行社团的划分。
【参考文献】:
期刊论文
[1]基于新的距离度量的K-Modes聚类算法[J]. 梁吉业,白亮,曹付元. 计算机研究与发展. 2010(10)
[2]复杂网络及其在国内研究进展的综述[J]. 刘建香. 系统科学学报. 2009(04)
[3]基于社会网络可视化分析的数据挖掘(英文)[J]. 杨育彬,李宁,张瑶. 软件学报. 2008(08)
本文编号:2913518
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2913518.html