社交网络用户影响力关键技术研究
发布时间:2018-03-18 11:28
本文选题:微博数据采集 切入点:Phantomjs 出处:《上海交通大学》2014年硕士论文 论文类型:学位论文
【摘要】:随着互联网的发展,社交网络日益成熟,微博作为社交网络中的典型代表近年来广受学术界的关注。在微博中的每个用户影响他人的能力作为微博研究的一个热点,对于微博中信息的传播、整合与推广以及微博中舆论监控与导向有着重要的理论与实践意义。本文以新浪微博为例,首先研究了一种全新的微博数据采集方法,为研究微博用户影响力提供数据采集方面的支持,然后提出了一种微博用户影响力的计算方法,来衡量微博中的用户影响力。 对于新浪微博的数据采集,本文首先分析了新浪微博中需要采集的数据,然后分析了新浪微博API数据采集的缺点,,从而提出了一种新的基于Phantomjs的新浪微博数据采集方法并详细的介绍了相关的采集技术与存储采集内容的数据结构,最终通过与新浪微博API数据采集比较取长补短设计了一种新的新浪微博数据采集方案并根据该方案设计了新浪微博数据采集系统,通过实验该系统可以高效的进行新浪微博数据采集。 对于新浪微博用户影响力,本文参考PageRank算法分析了用户影响力的构成,提出了用户自身影响力与用户被影响力的概念,得出了用户影响力是由用户粉丝的自身影响力乘以其被影响力加上用户自身影响力构成的,并且分析得出了用户自身影响力与用户被影响力的计算公式,最终通过实验证明用户影响力的计算方法能够较好的体现用户影响力。
[Abstract]:With the development of Internet, social network is becoming more and more mature. Weibo, as a typical representative of social network, has attracted much attention from academic circles in recent years. It has important theoretical and practical significance for the dissemination, integration and promotion of information in Weibo, as well as the supervision and guidance of public opinion in Weibo. This paper provides data acquisition support for studying Weibo's user influence, and then proposes a method to calculate the user's influence to measure the user's influence in Weibo. For the data collection of Sina Weibo, this paper first analyzes the data that need to be collected in Sina Weibo, and then analyzes the shortcomings of the data collection of API. A new data acquisition method of Sina Weibo based on Phantomjs is put forward, and the relevant acquisition technology and data structure of storing collected content are introduced in detail. Finally, by comparing data acquisition with Sina Weibo API, a new Sina Weibo data acquisition scheme is designed, and according to this scheme, Sina Weibo data acquisition system is designed. Through the experiment this system can carry on the Sina Weibo data collection efficiently. For user influence of Sina Weibo, this paper analyzes the composition of user influence with reference to PageRank algorithm, and puts forward the concept of user's own influence and user's influence. It is concluded that user influence is made up of the influence of the user fan multiplied by the influence of the user and the influence of the user, and the calculation formula of the influence of the user itself and the influence of the user is obtained. Finally, it is proved by experiments that the calculation method of user influence can better reflect the influence of user.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【参考文献】
相关期刊论文 前10条
1 刘丽清;;微博虽“微”足值道尔——微博特性之浅析[J];东南传播;2009年11期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 闫幸;常亚平;;微博研究综述[J];情报杂志;2011年09期
4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
5 赵丽;袁睿翕;管晓宏;贾庆山;;博客网络中具有突发性的话题传播模型[J];软件学报;2009年05期
6 王晓光;;微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[J];图书情报工作;2010年14期
7 赵思佳;尹婷;;基于规则引擎的个性化主题网页爬虫的研究[J];计算机技术与发展;2011年03期
8 卢金珠;;微博客传播特性及盈利模式分析[J];现代传播(中国传媒大学学报);2010年04期
9 刘淑梅;夏亮;许南山;;主题搜索引擎网络爬虫搜索策略的研究与实现[J];计算机系统应用;2010年03期
10 石磊;张聪;卫琳;;引入活跃指数的微博用户排名机制[J];小型微型计算机系统;2012年01期
本文编号:1629424
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1629424.html