基于Pregel-Like架构的并行图挖掘平台研究与实现
[Abstract]:As an important type of unstructured data, graphs have better semantic and structural representation than linear tables and tree structures. Many real-world problems can be represented by graphs, and the processing of graph data and related applications are everywhere. With the explosive growth of information and the vigorous development of social network, the scale of graph data that needs to be processed is increasing day by day, which poses a great challenge to the efficient processing of large-scale graph. Cloud computing is one of the effective means to deal with the task of massive data mining and to improve the capability of massive data mining. This paper designs and implements a parallel graph mining platform based on Pregel-Like architecture with this idea as the starting point. The underlying cloud storage architecture, HDFS (Hadoop Distributed File System), can provide efficient, secure, and fault-tolerant support for large-scale graph storage. Cloud computing framework uses BSP (Bulk Synchronous Parallel model) model, and its unique super-step is very suitable for graph algorithm which needs iterative computation, which makes it possible to analyze large-scale graph data. The platform integrates all kinds of graph mining algorithms, and provides a visual display of the analysis results and network topology of each algorithm. The main work of this paper is to design and implement an improved algorithm of classical important algorithm in graph attribute analysis and graph sorting based on the investigation of classical graph mining algorithm and related improved algorithm. The results of the classical algorithm and the improved algorithm are compared with the actual data set. Finally, a new graph clustering algorithm is proposed. The main contents are as follows: 1) the parallel algorithms of K-shell decomposition and semi-local centrality are designed and implemented. Compared with the values, the two algorithms can better describe the importance of nodes, and the computational complexity is lower than that of the meshwork. Based on the common data set, we analyze the distribution of the two and the correlation distribution of degree. 2) We design and implement two kinds of graph sorting algorithms: LeaderRank and SALSA (Stochastic Approach for Link Structure Analysis), the former converges faster than the PageRank algorithm, and the former converges faster than the PageRank algorithm. Can better identify influential nodes, and strong anti-interference ability. Compared with HITS (Hypertext-Induced Topic Search), the hub value of the latter can better measure the propagation ability of nodes. 3) A community discovery algorithm based on K-shell value is proposed, which reduces the size of the network and improves the efficiency of operation by K-shell decomposition. The correctness is verified according to the "benchmark" network.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 马安光;;棋子问题的算法分析——2003年第11期题解[J];程序员;2004年01期
2 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期
3 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期
4 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期
5 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期
6 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期
7 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期
8 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期
9 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期
10 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期
相关会议论文 前6条
1 陈洪陶;王生原;武继刚;朱智林;杨庆德;;BSP在分布式数据库系统规范中的应用[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
3 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
4 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
5 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
6 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
相关博士学位论文 前10条
1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
4 李红;流程挖掘算法研究[D];云南大学;2015年
5 卜晨阳;演化约束优化及演化动态优化求解算法研究[D];中国科学技术大学;2017年
6 陈拉明;基于非凸优化的稀疏重建理论与算法[D];清华大学;2016年
7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
相关硕士学位论文 前10条
1 王阳;基于Pregel-Like架构的并行图挖掘平台研究与实现[D];北京邮电大学;2016年
2 薛婧杰;多元架构领导力模型在A集团中的应用研究[D];中国地质大学(北京);2017年
3 武雅卉;网络架构中柔性结构的研究[D];大连理工大学;2017年
4 李妮莎;关于珠江公司组织架构优化的研究[D];广东外语外贸大学;2017年
5 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年
6 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年
7 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年
8 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年
9 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年
10 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年
,本文编号:2432950
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2432950.html