基于Spark的社区发现算法并行化的研究及应用
发布时间:2021-02-28 00:11
家庭用户市场是通信行业重点竞争的市场,运营商急需一种家庭关系识别模型,能够在海量的用户历史通话记录中准确地识别出家庭用户。随着智能手机迅速普及,通话社交网络不仅成为最大的社交网络,而且还映射了现实世界中不同用户间的亲密关系,因此通话社交网络呈现出了一定的社区结构。针对这一特征,本文提出利用社区发现算法构建通话社交网络上的家庭关系识别模型。综合考虑时间、模块度等要素,本文选择Louvain算法作为家庭关系识别模型的社区发现算法。目前,真实世界的社交网络规模早已达到亿级别,对家庭关系识别模型构建带来了严峻的计算挑战。由于通话数据集呈现出网状式图结构特征,并且Spark分布式并行计算平台提供了用于图分析和图计算的GraphX组件,所以本文在Spark平台上构建家庭关系识别模型以及重点研究基于GraphX的Louvain算法并行化,主要工作与创新点包括以下几个部分:1.基于GraphX实现Louvain算法并行化。本文分析Louvain算法的基本原理,通过GraphX的发送、聚合消息机制完成Louvain算法的核心计算步骤,在GraphX上实现Louvain算法的并行化。为了解决并行化后出现的...
【文章来源】:河北师范大学河北省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
不同算法的模块度比较
37由图3.6和表3.18可知,PLL算法和单机的Louvain算法在不同数据集上模块度的值是一样的。表明PLL算法和单机Louvain算法相比,PLL算法没有降低社区划分结果的准确度。CGL算法则在每个数据集上,比其他两种算法的模块度值低,但是最大差值仅为0.08,说明这三种算法在模块度指标上差异不大。图3.7不同算法的NMI比较图3.7为PLL算法、CGL算法、单机的Louvain算法的划分结果的与真实网络划分的NMI值比较。NMI的值越接近1,表明划分的结果与真实结果越相近。由表3.18中的数据可知,PLL算法和单机的Louvain算法在不同数据集上NMI的值是一样的,表明PLL算法和单机Louvain算法相比,PLL算法拥有和单机Louvain算法同等能力的社区划分效果。CGL算法在每个数据集上,比其他两种算法的NMI值低。说明CGL算法在NMI指标上不如其他两种算法。图3.8不同算法的运行时间比较图3.8为PLL算法、CGL算法、单机的Louvain算法的运行时间比较,由表3.18中的数据可知,PLL算法在不同数据集上运行时间都是最长的,且在DBLP数据集上运行时间超过24小时,远超其他算法运行时间。说明PLL算法在运行时间指标上不如其他
37由图3.6和表3.18可知,PLL算法和单机的Louvain算法在不同数据集上模块度的值是一样的。表明PLL算法和单机Louvain算法相比,PLL算法没有降低社区划分结果的准确度。CGL算法则在每个数据集上,比其他两种算法的模块度值低,但是最大差值仅为0.08,说明这三种算法在模块度指标上差异不大。图3.7不同算法的NMI比较图3.7为PLL算法、CGL算法、单机的Louvain算法的划分结果的与真实网络划分的NMI值比较。NMI的值越接近1,表明划分的结果与真实结果越相近。由表3.18中的数据可知,PLL算法和单机的Louvain算法在不同数据集上NMI的值是一样的,表明PLL算法和单机Louvain算法相比,PLL算法拥有和单机Louvain算法同等能力的社区划分效果。CGL算法在每个数据集上,比其他两种算法的NMI值低。说明CGL算法在NMI指标上不如其他两种算法。图3.8不同算法的运行时间比较图3.8为PLL算法、CGL算法、单机的Louvain算法的运行时间比较,由表3.18中的数据可知,PLL算法在不同数据集上运行时间都是最长的,且在DBLP数据集上运行时间超过24小时,远超其他算法运行时间。说明PLL算法在运行时间指标上不如其他
【参考文献】:
期刊论文
[1]基于Hadoop和Spark的雷达数据序列模式挖掘系统[J]. 罗祖兵,杨晓敏,严斌宇. 计算机应用. 2019(S2)
[2]基于网络表示学习的非单一维度的社区发现算法[J]. 陈婉杰,盛益强. 计算机应用. 2019(12)
[3]基于维基百科类别图的推特用户兴趣挖掘[J]. 刘小捷,吕晓强,王晓玲,张伟,赵安. 计算机科学. 2019(09)
[4]基于Hadoop的Web日志分析系统的设计[J]. 何璇,马佳琳. 软件工程. 2019(02)
[5]Spark性能优化技术研究综述[J]. 廖湖声,黄珊珊,徐俊刚,刘仁峰. 计算机科学. 2018(07)
[6]融合拓扑势的社交网络层次化社区发现算法[J]. 候梦男,王志晓,何婧,芮晓彬,高菊远. 计算机工程与应用. 2019(01)
[7]基于Hadoop平台的相关性权重算法设计与实现[J]. 高军,黄献策. 计算机工程. 2019(03)
[8]MapReduce与Spark用于大数据分析之比较[J]. 吴信东,嵇圣硙. 软件学报. 2018(06)
[9]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[10]基于并行图计算的社区划分方法[J]. 谭敢锋,刘群. 计算机应用研究. 2018(08)
博士论文
[1]基于统计推理的复杂网络社区结构分析[D]. 陈毅.哈尔滨工业大学 2016
硕士论文
[1]基于移动通信社会化网络的家庭关系识别[D]. 李飞成.北京邮电大学 2019
[2]Louvain算法在社区挖掘中的研究与实现[D]. 李沐南.中国石油大学(北京) 2016
[3]基于移动通信交往圈的家庭用户识别研究[D]. 陆菁.上海交通大学 2014
本文编号:3055009
【文章来源】:河北师范大学河北省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
不同算法的模块度比较
37由图3.6和表3.18可知,PLL算法和单机的Louvain算法在不同数据集上模块度的值是一样的。表明PLL算法和单机Louvain算法相比,PLL算法没有降低社区划分结果的准确度。CGL算法则在每个数据集上,比其他两种算法的模块度值低,但是最大差值仅为0.08,说明这三种算法在模块度指标上差异不大。图3.7不同算法的NMI比较图3.7为PLL算法、CGL算法、单机的Louvain算法的划分结果的与真实网络划分的NMI值比较。NMI的值越接近1,表明划分的结果与真实结果越相近。由表3.18中的数据可知,PLL算法和单机的Louvain算法在不同数据集上NMI的值是一样的,表明PLL算法和单机Louvain算法相比,PLL算法拥有和单机Louvain算法同等能力的社区划分效果。CGL算法在每个数据集上,比其他两种算法的NMI值低。说明CGL算法在NMI指标上不如其他两种算法。图3.8不同算法的运行时间比较图3.8为PLL算法、CGL算法、单机的Louvain算法的运行时间比较,由表3.18中的数据可知,PLL算法在不同数据集上运行时间都是最长的,且在DBLP数据集上运行时间超过24小时,远超其他算法运行时间。说明PLL算法在运行时间指标上不如其他
37由图3.6和表3.18可知,PLL算法和单机的Louvain算法在不同数据集上模块度的值是一样的。表明PLL算法和单机Louvain算法相比,PLL算法没有降低社区划分结果的准确度。CGL算法则在每个数据集上,比其他两种算法的模块度值低,但是最大差值仅为0.08,说明这三种算法在模块度指标上差异不大。图3.7不同算法的NMI比较图3.7为PLL算法、CGL算法、单机的Louvain算法的划分结果的与真实网络划分的NMI值比较。NMI的值越接近1,表明划分的结果与真实结果越相近。由表3.18中的数据可知,PLL算法和单机的Louvain算法在不同数据集上NMI的值是一样的,表明PLL算法和单机Louvain算法相比,PLL算法拥有和单机Louvain算法同等能力的社区划分效果。CGL算法在每个数据集上,比其他两种算法的NMI值低。说明CGL算法在NMI指标上不如其他两种算法。图3.8不同算法的运行时间比较图3.8为PLL算法、CGL算法、单机的Louvain算法的运行时间比较,由表3.18中的数据可知,PLL算法在不同数据集上运行时间都是最长的,且在DBLP数据集上运行时间超过24小时,远超其他算法运行时间。说明PLL算法在运行时间指标上不如其他
【参考文献】:
期刊论文
[1]基于Hadoop和Spark的雷达数据序列模式挖掘系统[J]. 罗祖兵,杨晓敏,严斌宇. 计算机应用. 2019(S2)
[2]基于网络表示学习的非单一维度的社区发现算法[J]. 陈婉杰,盛益强. 计算机应用. 2019(12)
[3]基于维基百科类别图的推特用户兴趣挖掘[J]. 刘小捷,吕晓强,王晓玲,张伟,赵安. 计算机科学. 2019(09)
[4]基于Hadoop的Web日志分析系统的设计[J]. 何璇,马佳琳. 软件工程. 2019(02)
[5]Spark性能优化技术研究综述[J]. 廖湖声,黄珊珊,徐俊刚,刘仁峰. 计算机科学. 2018(07)
[6]融合拓扑势的社交网络层次化社区发现算法[J]. 候梦男,王志晓,何婧,芮晓彬,高菊远. 计算机工程与应用. 2019(01)
[7]基于Hadoop平台的相关性权重算法设计与实现[J]. 高军,黄献策. 计算机工程. 2019(03)
[8]MapReduce与Spark用于大数据分析之比较[J]. 吴信东,嵇圣硙. 软件学报. 2018(06)
[9]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[10]基于并行图计算的社区划分方法[J]. 谭敢锋,刘群. 计算机应用研究. 2018(08)
博士论文
[1]基于统计推理的复杂网络社区结构分析[D]. 陈毅.哈尔滨工业大学 2016
硕士论文
[1]基于移动通信社会化网络的家庭关系识别[D]. 李飞成.北京邮电大学 2019
[2]Louvain算法在社区挖掘中的研究与实现[D]. 李沐南.中国石油大学(北京) 2016
[3]基于移动通信交往圈的家庭用户识别研究[D]. 陆菁.上海交通大学 2014
本文编号:3055009
本文链接:https://www.wllwen.com/shekelunwen/shgj/3055009.html