基于复杂网络的网络大数据聚类应用研究
发布时间:2017-04-22 21:23
本文关键词:基于复杂网络的网络大数据聚类应用研究,由笔耕文化传播整理发布。
【摘要】:本文以网络大数据为研究对象,分析大数据的特性,得出复杂网络是网络大数据的重要组成形式,而复杂网络中社区结构的发现与聚类算法具备天然的相似性。因此本文即运用复杂网络的方法来解决网络大数据的聚类问题。本文通过分析网络大数据的特性得出网络大数据所形成的复杂网络节点数较多,规模较大,并且网络大数据的聚类对是时间要求较高,所以全局发现算法不适合于网络大数据的聚类。因此本文从局部发现的角度出发来进行网络大数据的聚类研究。提出了基于局部关键节点的大数据聚类算法。首先,引入局部关键节点的思想,结合全局关键节点的发现方法,提出了局部关键节点的发现方法。然后,将局部关键节点与其邻居节点组成初始社区,并用推导后的适应度公式向外进行扩张得到最终社区。然后分析大数据集的特性,得出在大数据集中往往一个社区内有多个关键节点,因此,从局部关键节点根据适应度公式向外逐个节点的扩张就可能导致其他的关键节点被排除在外,并且关键节点与其邻居节点组成初始社区就有可能将相邻社区的节点加入进来导致聚类结果质量下降。针对这两点不足,提出了基于局部关键社区的大数据聚类算法,通过引入极大团的概念和进一步对适应度公式进行改进来提高聚类结果质量。首先,分析极大团的特性,得出极大团是社区内联系最紧密的一组节点。所以由此可以判定,极大团的所有节点都在一个社区内,一个社区内规模最大的极大团则是这个社区内最大团即是这个社区的最核心的类别,也是整个社区的极大类。因此,可以将局部关键节点的发现方法和极大团的发现方法相结合来发现局部关键社区。这样可以将数据集分为局部关键社区和普通节点两个部分。由于原适应度公式只能适合单一节点向外扩张,而现在需要将较小的关键社区加入到社区中,因此对适应度函数进行改进。然后,以规模最大的局部关键社区为初始社区运用改进后的适应度公式向外扩张得到最终社区。最后在真实数据集上进行检验,证明算法具有可行性并且能减少时间消耗。接着分析所提出算法的组成部分,提出对应部分的并行策略和总体算法的并行策略,并在真实数据集上进行验证。结果证明提出的并行策略在不影响结果质量的前提下有效减少时间消耗,在大规模的数据集上尤为明显,并与并行线程数成正比。说明提出的并行策略适用于网络大数据的聚类。
【关键词】:大数据 聚类 局部 适应度 并行
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;O157.5
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-16
- 1.1 研究背景和意义9-10
- 1.2 大数据的特征和构成10
- 1.3 国内外动态10-14
- 1.3.1 大数据的聚类10-13
- 1.3.2 社区结构13-14
- 1.4 论文主要研究内容14-15
- 1.5 论文组织结构15-16
- 2 基于局部关键节点的大数据聚类算法16-25
- 2.1 局部关键节点的发现16-17
- 2.1.1 关键节点的定义16
- 2.1.2 全局关键节点发现算法16-17
- 2.1.3 局部关键节点发现算法17
- 2.2 适应度函数的改进17-19
- 2.3 基于局部关键节点的大数据聚类算法具体算法步骤19
- 2.4 算法复杂度的分析19-21
- 2.5 社区评价函数21
- 2.6 实验分析21-25
- 2.6.1 小规模真实网络21-22
- 2.6.2 较大规模真实网络22-23
- 2.6.3 实验结果分析23-25
- 3 基于局部关键社区的大数据聚类算法25-34
- 3.1 局部关键社区的发现25-26
- 3.1.1 关键社区的定义25
- 3.1.2 极大团发现算法25-26
- 3.1.3 局部关键社区的发现算法26
- 3.2 局部社区发现26-28
- 3.2.1 适应度函数的改进27
- 3.2.2 局部关键社区发现的具体步骤27-28
- 3.3 基于局部关键社区的大数据聚类算法具体算法步骤28
- 3.4 算法复杂度的分析28-31
- 3.4.1 关键社区发现复杂度分析28-30
- 3.4.2 局部社区发现复杂度分析30
- 3.4.3 总体复杂度分析30-31
- 3.5 实验分析31-34
- 3.5.1 实验环境31
- 3.5.2 实验结果31-32
- 3.5.3 实验结果分析32-34
- 4 基于局部关键社区的大数据聚类算法的并行研究34-46
- 4.1 极大团的并行发现34-35
- 4.2 关键社区的并行策略35-36
- 4.3 局部社区发现的并行策略36-38
- 4.4 总算法的并行策略38-41
- 4.5 并行算法复杂度的分析41-42
- 4.5.1 关键社区发现复杂度分析41
- 4.5.2 局部社区发现复杂度分析41-42
- 4.6 实验分析42-46
- 4.6.1 实验环境42-43
- 4.6.2 实验结果43-44
- 4.6.3 实验结果分析44-46
- 结论46-48
- 致谢48-49
- 参考文献49-52
- 攻读学位期间的研究成果52
【参考文献】
中国期刊全文数据库 前10条
1 黄磊;支小莉;郑圣安;;面向大数据应用的多层次混合式并行方法[J];上海大学学报(自然科学版);2016年01期
2 陈晓;赵晶玲;;大数据处理中混合型聚类算法的研究与实现[J];信息网络安全;2015年04期
3 程鑫;石洪波;;大数据时代传统相关分析的局限与拓展[J];统计与决策;2015年05期
4 向尧;袁景凌;钟珞;赵彦鹏;;一种面向大数据集的粗粒度并行聚类算法研究[J];小型微型计算机系统;2014年10期
5 古凌岚;;面向大数据集的有效聚类算法[J];计算机工程与设计;2014年06期
6 卢志茂;冯进玫;范冬梅;杨朋;田野;;面向大数据处理的划分聚类新方法[J];系统工程与电子技术;2014年05期
7 朱建平;章贵军;刘晓葳;;大数据时代下数据分析理念的辨析[J];统计研究;2014年02期
8 李金昌;;大数据与统计新思维[J];统计研究;2014年01期
9 张引;陈敏;廖小飞;;大数据应用的现状与展望[J];计算机研究与发展;2013年S2期
10 ;Adaptive monopulse beamforming with partial parallel structure[J];Journal of Systems Engineering and Electronics;2012年06期
本文关键词:基于复杂网络的网络大数据聚类应用研究,由笔耕文化传播整理发布。
,本文编号:321308
本文链接:https://www.wllwen.com/kejilunwen/yysx/321308.html