当前位置:主页 > 科技论文 > 软件论文 >

基于Pregel-Like架构的并行图挖掘平台研究与实现

发布时间:2019-03-02 10:07
【摘要】:图作为非结构化数据中的一种重要的类型,比线性表和树结构在语义和结构方面都有更强的表示能力。很多现实世界中的问题都可以用图来表示,对图数据的处理以及相关的应用无处不在。而随着信息爆炸型增长及社会网络的大力发展,需要处理的图数据的规模与日俱增,这对大规模图的高效处理提出了巨大挑战。云计算是处理海量数据挖掘任务、提升海量数据挖掘能力的有效手段之一,本文正是以这个思路为出发点,设计并实现了一个基于Pregel-Like架构的并行图挖掘平台。底层云存储架构选择HDFS(Hadoop Distributed File System),可以为大规模图的存储提供高效、安全、高容错的支持。云计算框架使用BSP(Bulk Synchronous Parallel model)模型,其特有的超级步非常适合需要迭代计算的图算法,使得对大规模图数据的分析成为可能。平台集成了各类图挖掘算法,并对各算法分析结果及网络拓扑结构提供了可视化展示。本文的主要工作是通过对经典图挖掘算法及相关改进算法的调研,在底层框架的基础上设计并实现了图属性分析和图排序中对经典重要算法的改进算法,并结合实际数据集对经典算法及改进算法的结果做了对比,最后提出了一种新的图聚类算法。具体内容如下:1)设计并实现了 K-shell分解和半局部中心性两种图属性并行算法,两者相比于度值可以更好地刻画节点重要性,计算复杂度又要比介数的计算低,基于公共数据集分析了两者的分布及与度的相关分布。2)设计并实现了 LeaderRank 和 SALSA(Stochastic Approach for Link Structure Analysis)两种图排序算法,前者相比于PageRank算法收敛更快,能够更好地识别有影响力的节点,且抗干扰能力强。后者相比于 HITS(Hypertext-Induced Topic Search)算法,其 hub 值能更好地衡量节点传播能力。3)提出了一种基于K-shell值的社团发现算法,通过K-shell分解缩小网络规模提高运行效率,根据“基准”网络验证了正确性。
[Abstract]:As an important type of unstructured data, graphs have better semantic and structural representation than linear tables and tree structures. Many real-world problems can be represented by graphs, and the processing of graph data and related applications are everywhere. With the explosive growth of information and the vigorous development of social network, the scale of graph data that needs to be processed is increasing day by day, which poses a great challenge to the efficient processing of large-scale graph. Cloud computing is one of the effective means to deal with the task of massive data mining and to improve the capability of massive data mining. This paper designs and implements a parallel graph mining platform based on Pregel-Like architecture with this idea as the starting point. The underlying cloud storage architecture, HDFS (Hadoop Distributed File System), can provide efficient, secure, and fault-tolerant support for large-scale graph storage. Cloud computing framework uses BSP (Bulk Synchronous Parallel model) model, and its unique super-step is very suitable for graph algorithm which needs iterative computation, which makes it possible to analyze large-scale graph data. The platform integrates all kinds of graph mining algorithms, and provides a visual display of the analysis results and network topology of each algorithm. The main work of this paper is to design and implement an improved algorithm of classical important algorithm in graph attribute analysis and graph sorting based on the investigation of classical graph mining algorithm and related improved algorithm. The results of the classical algorithm and the improved algorithm are compared with the actual data set. Finally, a new graph clustering algorithm is proposed. The main contents are as follows: 1) the parallel algorithms of K-shell decomposition and semi-local centrality are designed and implemented. Compared with the values, the two algorithms can better describe the importance of nodes, and the computational complexity is lower than that of the meshwork. Based on the common data set, we analyze the distribution of the two and the correlation distribution of degree. 2) We design and implement two kinds of graph sorting algorithms: LeaderRank and SALSA (Stochastic Approach for Link Structure Analysis), the former converges faster than the PageRank algorithm, and the former converges faster than the PageRank algorithm. Can better identify influential nodes, and strong anti-interference ability. Compared with HITS (Hypertext-Induced Topic Search), the hub value of the latter can better measure the propagation ability of nodes. 3) A community discovery algorithm based on K-shell value is proposed, which reduces the size of the network and improves the efficiency of operation by K-shell decomposition. The correctness is verified according to the "benchmark" network.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 马安光;;棋子问题的算法分析——2003年第11期题解[J];程序员;2004年01期

2 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期

3 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期

4 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期

5 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期

6 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期

7 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期

8 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期

9 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期

10 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期

相关会议论文 前6条

1 陈洪陶;王生原;武继刚;朱智林;杨庆德;;BSP在分布式数据库系统规范中的应用[A];第九届全国数据库学术会议论文集(上)[C];1990年

2 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

3 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年

4 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

5 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年

6 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关博士学位论文 前10条

1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年

2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年

3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年

4 李红;流程挖掘算法研究[D];云南大学;2015年

5 卜晨阳;演化约束优化及演化动态优化求解算法研究[D];中国科学技术大学;2017年

6 陈拉明;基于非凸优化的稀疏重建理论与算法[D];清华大学;2016年

7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年

8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年

9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年

10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年

相关硕士学位论文 前10条

1 王阳;基于Pregel-Like架构的并行图挖掘平台研究与实现[D];北京邮电大学;2016年

2 薛婧杰;多元架构领导力模型在A集团中的应用研究[D];中国地质大学(北京);2017年

3 武雅卉;网络架构中柔性结构的研究[D];大连理工大学;2017年

4 李妮莎;关于珠江公司组织架构优化的研究[D];广东外语外贸大学;2017年

5 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年

6 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年

7 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年

8 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年

9 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年

10 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年



本文编号:2432950

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2432950.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户448e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com