基于MapReduce模型的大规模社交网络高效分析算法研究
本文选题:在线社交网络 + MapReduce ; 参考:《上海交通大学》2014年硕士论文
【摘要】:自从Web2.0的兴起,在线社交网络吸引了许多国内外研究者的兴趣。这些社交网络有许多独特的结构性质如度的幂律分布、极短的网络半径和较明显的社区聚集特性。这些结构方面独特的性质直接或间接影响着网络中的信息传播以及人与人之间的交流互动,对于研究人类社会的组织架构形式以及人际关系的演化方式有着极为重要的作用。目前主流的社交网络的用户数已达到上亿规模,而用户之间的关系则达到了几十亿甚至上百亿的数量级。传统的工具(如关系型数据库)以及传统的算法(基于单CPU的串行算法)已无法胜任。 针对探索在线社交网络结构的问题,本文主要以新浪微博和Twitter为例,并参照对比了其他有向社交网络的测量结果,全面探究了在线社交网络的结构特征,包括度的分布、关系的相互性、聚集性、度的相关性、路径长度和社区等。其中,新浪微博的数据集是本文通过一个分布式爬虫,经过3个月的时间从其网站爬取的结果,包含了1.35亿个用户和104亿条关系。 针对大规模在线社交网络数据的处理问题,本文提出了若干种基于MapReduce模型的社交网络分析算法。其中最基础最核心的是半并行广度优先搜索算法。该算法在运算量和I/O负载等性能方面都要远远优于业界公认的图的挖掘算法类库——Pegasus。本文给出了所提出算法的理论性能分析结果,,同时基于新浪微博的网络结构特征给出了经验性能分析结果和实测结果。
[Abstract]:Since the emergence of Web 2.0, online social networks have attracted the interest of many researchers at home and abroad. These social networks have many unique structural properties such as power law distribution of degree, very short radius of network and obvious community aggregation. The unique nature of these structures directly or indirectly affects the information dissemination and the interaction between people in the network, and plays an extremely important role in the study of the organizational structure of human society and the evolution of interpersonal relationships. The number of users of mainstream social networks has reached hundreds of millions, while the relationship between users has reached billions or even tens of billions of orders of magnitude. Traditional tools (such as relational databases) and traditional algorithms (single CPU based serial algorithms) have been incompetent. Aiming at the problem of exploring the network structure of online social networks, this paper mainly takes Sina Weibo and Twitter as examples, and compares the measurement results of other directed social networks, and probes into the structural characteristics of online social networks, including the distribution of degrees. Interactivity, agglomeration, correlation of degree, path length, community, etc. Among them, the data set of Sina Weibo is the result of a distributed crawler crawling from its website in three months. It contains 135 million users and 10.4 billion relationships. Aiming at the problem of data processing of large-scale online social networks, this paper presents several analysis algorithms of social networks based on MapReduce model. The most basic and core is the half parallel breadth-first search algorithm. The algorithm is much better than the class library of graph mining in terms of computation and I / O load. In this paper, the theoretical performance analysis results of the proposed algorithm are given, and the empirical performance analysis results and the measured results are given based on the network structure characteristics of Sina Weibo.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【共引文献】
相关期刊论文 前10条
1 刘满凤;唐厚兴;;基于社会网络模型的知识溢出传导过程研究[J];当代财经;2010年05期
2 张廷;高宝俊;宣慧玉;;基于元胞自动机的创新扩散模型综述[J];系统工程;2006年12期
3 段文奇;陈忠;惠淑敏;;基于复杂网络的网络市场新产品扩散:采用网络和初始条件的作用[J];系统工程;2007年05期
4 张青敏;胡斌;刘婉;;信息传播及其生命周期对移动商务价值链运行的影响研究[J];管理学报;2012年04期
5 朱志国;;基于在线社会网络的病毒性营销传播机理研究[J];图书与情报;2012年06期
6 张静远;孙伟刚;童丽艳;李常品;;Topological Properties of Fibonacci Networks[J];Communications in Theoretical Physics;2013年09期
7 陈国强;王宇平;刘盛华;;Centrality measure of complex networks based on resource flow[J];Journal of Beijing Institute of Technology;2013年03期
8 陈斌;徐志明;张永超;;基于微博社交网络的信息传播分析[J];智能计算机与应用;2013年05期
9 叶强;孙忠林;魏永山;;一种基于Hadoop的大规模图直径算法[J];电脑开发与应用;2013年12期
10 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
相关会议论文 前10条
1 ;Minimizing the Complete Influence Time of a Social Network with Limited Resource[A];第七届中国不确定系统年会论文集[C];2009年
2 Qiu Xinyun;Wang Lifu;GaoYuan;Wu Yaping;;The Optimal Synchronizability of a Class Network[A];第25届中国控制与决策会议论文集[C];2013年
3 Zhanshan Wang;Chao Cai;Junyi Wang;Hongjing Liang;;Design of State Observer for Discrete-time Fault Complex Interconnected Networks with Different Nodes[A];第25届中国控制与决策会议论文集[C];2013年
4 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
5 Bin Ye;Kangwei Zuo;Jiajia Jia;;Random Matrix Analysis of Spectral Properties in Directed Complex Networks[A];第26届中国控制与决策会议论文集[C];2014年
6 Bin Ye;Shuai Xu;;A Quantum Dynamics Approach to Spectral Analysis in Small-World Complex Networks[A];第26届中国控制与决策会议论文集[C];2014年
7 HAN Zhen;LU Yu;GU Ping;;Research on the Test of Maintenance Support Force System Based on the Theory of Complex Network[A];第26届中国控制与决策会议论文集[C];2014年
8 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
9 Zhou Hong;Li Wei;Qin Yu-Zhen;Feng Kuo;Liu Zhi-Wei;;Projective Synchronization of Two Time-delay Impulsive Coupling Complex Networks[A];第26届中国控制与决策会议论文集[C];2014年
10 Anding Dai;Wuneng Zhou;Yichao Zheng;Shengchao Su;;Exponential synchronization of stochastic complex dynamical networks with impulsive perturbations and Markovian switching[A];第26届中国控制与决策会议论文集[C];2014年
相关博士学位论文 前10条
1 刘天印;基于系统模拟的高校教师工作压力研究[D];华中科技大学;2010年
2 颜海兴;基于创新扩散模型的市场营销组合策略研究[D];东华大学;2010年
3 苗旺;消费者视角的创新产品扩散研究[D];山东大学;2011年
4 柴海燕;旅游目的地网络口碑传播研究[D];武汉大学;2011年
5 张青敏;移动商务信息扩散及其对价值链的影响研究[D];武汉大学;2011年
6 程秀芳;虚拟社区网络口碑对消费者决策行为影响研究[D];中国矿业大学;2011年
7 黄玮强;基于复杂社会网络的创新扩散研究[D];东北大学;2009年
8 于宇梅;两个高维竞争模型的全局性态分析[D];苏州大学;2006年
9 赵正龙;基于复杂社会网络的创新扩散模型研究[D];上海交通大学;2008年
10 吴江;组织—信息系统互动动态网络模拟研究[D];华中科技大学;2009年
相关硕士学位论文 前10条
1 吴昊;网络论坛中的用户主题讨论建模及应用[D];浙江大学;2011年
2 兰如钦;社会网络上的影响力最大化算法研究[D];北京交通大学;2011年
3 梁雁;男士洁面产品购买者的自我形象对口碑传播效果的影响研究[D];华南理工大学;2011年
4 姜秀芳;面向复杂网络的社区发现算法研究[D];中国科学技术大学;2011年
5 元文娟;面向在线用户评论的管理反馈实证研究[D];哈尔滨工业大学;2011年
6 宋晓龙;突发事件的互联网信息传播规律研究[D];哈尔滨工业大学;2011年
7 李玄;企业间相互作用下中小企业集群技术扩散实证研究[D];河北工业大学;2011年
8 刘婉;电子商务环境下供应链运行规律的集成模拟研究[D];华中科技大学;2011年
9 郑蕾;面向社会网络的信息传播模型研究[D];上海交通大学;2011年
10 章云龙;社交网络中基于话题的影响最大化问题研究[D];上海交通大学;2012年
本文编号:2118055
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2118055.html