当前位置:主页 > 管理论文 > 移动网络论文 >

微博数据获取与传播行为建模

发布时间:2018-03-11 07:28

  本文选题:社交媒体 切入点:爬虫 出处:《华东师范大学》2014年硕士论文 论文类型:学位论文


【摘要】:随着Web2.0应用的快速发展,社交媒体作为社会感知器用于记录人们日常生活、信息共享以及在线交友等,得到了商业界、政治界和学术界的广泛重视。分析社交媒体数据可以了解用户的关系网、理解用户的在线行为以及挖掘用户偏好,从而实现好友、产品以及服务的精准推荐;掌握信息在社交媒体中的传播途径和传播方式可以观测在线用户的集群行为,使虚拟空间成久安之势、建长治之业。因此,收集社交媒体数据,并感知用户在虚拟社区上的集群行为是重要而迫切的研究课题。 由于社交媒体数据间具有强烈的依赖关系,传统的抽样技术不适用于收集社交媒体数据。另外,社交媒体数据的海量性、实时性和个性化等特点致使分析社交媒体数据成为一个非常有挑战的任务。而微博作为一类典型的社交媒体,它几乎具备当前社交媒体的所有特征。因此,本文以微博为载体研究了社交媒体数据的获取以及信息在社交媒体上的传播模型。主要贡献如下: ·设计和实现了一种基于微博社交网络结构的数据获取方法。根据网络中心化理论,选择可信的、正常的种子用户,通过微博平台的关注网络按照广度优先的策略设计了一个分布式爬虫,爬取并发布了海量微博数据;同时,根据爬取的数据集讨论了微博数据的实时获取。 ·给出了微博流行度的形式化定义,提出微博的流行度应该用转发量和可能被浏览次数这两种不同的方式进行度量。它们分别从实际受到影响进一步传播该信息的用户数和可能浏览到此信息的用户数两个角度度量了微博的流行度。 ·研究了微博的生命周期和引爆点。分析表明大多数具有高流行度的微博生命周期小于48小时;并且微博在传播过程中可能存在引爆点,即微博流行度会在信息传播过程中出现二次或二次以上的爆炸式增加。观察发现微博流行度随时间变化服从Sigmoid函数,文章利用Sigmoid函数拟合微博流行度随时间变化,同时给出估计模型参数的算法。实验验证了模型的有效性和参数估计的准确性。 ·建立了一个网上集群行为资源库,该资源库能以事件为单位,从时间、空间、情绪和传播网络这四个维度对事件进行可视化分析。该平台可以帮助人们了解事件的具体发展,事件参与者的大致组成、民众对事件的观点分布,事件的主要推动者等更进一步的信息。 总的来说,本文以微博为载体,探索了基于社交网络结构获取社交媒体数据方法的可行性;基于收集的数据和流行度概念,对微博的传播方式进行了建模,研究微博生命周期和引爆点;最后建立社交媒体用户网上集群行为资源库,从多个维度展示社交媒体数据在研究用户集群行为中的作用。
[Abstract]:With the rapid development of Web2.0 applications, social media has been used as a social sensor to record people's daily lives, information sharing and online dating. The analysis of social media data can understand the user's network, understand the user's online behavior and excavate the user's preference, so as to realize the accurate recommendation of friends, products and services. How and how information is disseminated in social media allows you to observe the cluster behavior of online users, make the virtual space secure, and build a long-term business. Therefore, social media data are collected, And perceiving the cluster behavior of users in virtual community is an important and urgent research topic. Because of the strong dependency between social media data, traditional sampling techniques are not suitable for collecting social media data. The characteristics of real-time and personalization make it a challenging task to analyze social media data. Weibo, as a typical social media, has almost all the features of current social media. In this paper, Weibo is used as the carrier to study the acquisition of social media data and the dissemination model of information on social media. The main contributions are as follows:. 路designing and implementing a data acquisition method based on Weibo's social network structure. According to the theory of network centralization, we select trusted and normal seed users. Based on the focus network of Weibo platform, a distributed crawler is designed according to the strategy of breadth first, which crawls and publishes a mass of Weibo data. At the same time, according to the crawling data set, it discusses the real-time acquisition of Weibo data. 路give a formal definition of Weibo's popularity, It is suggested that the popularity of Weibo should be measured in two different ways, namely, the amount of forwarding and the number of times that the information may be browsed. They are further affected by the actual number of users who spread the information and the users who may browse to the information. Several two angles measure Weibo's popularity. 路studied Weibo's life cycle and tipping point. The analysis showed that the life cycle of the majority of those with high prevalence was less than 48 hours, and there might be a tipping point in the spread of Weibo. That is, Weibo's popularity will increase by two or more times in the process of information dissemination. It is found that Weibo's popularity varies with time from the Sigmoid function. The paper uses the Sigmoid function to fit the change of Weibo's popularity with time. At the same time, the algorithm of estimating the parameters of the model is given, and the validity of the model and the accuracy of the parameter estimation are verified by experiments. 路establish an online cluster behavior resource bank, which can visually analyze events in terms of events from the four dimensions of time, space, emotion and communication network. This platform can help people understand the specific development of events. The general composition of the event participants, the distribution of public views on the event, the main promoters of the event and other further information. In general, this paper takes Weibo as the carrier, explores the feasibility of acquiring social media data based on the social network structure, and builds a model for the transmission method of Weibo based on the collected data and the concept of popularity. The life cycle and tipping point of Weibo are studied. Finally, the social media users' online cluster behavior resource bank is established to demonstrate the role of social media data in the study of user cluster behavior from multiple dimensions.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;G206

【共引文献】

相关期刊论文 前10条

1 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期

2 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期

3 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期

4 辜晓进;洪芳芳;张可;;纸媒与微博的互动逻辑:基于“捣鸟窝”新闻的分析[J];国际新闻界;2013年09期

5 周琳达;沈阳;;社交媒体环境中编辑力的开发[J];编辑学刊;2014年01期

6 杨银娟;;美国期刊营销策略中的社会化媒体应用[J];出版发行研究;2014年01期

7 刘静;李跃辉;杨苗苗;许静;;基于MapReduce的电信客户流失决策树算法研究[J];电脑知识与技术;2013年30期

8 卢鑫;;浅论社交媒体对新闻生产的影响[J];东南传播;2013年10期

9 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期

10 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期

相关会议论文 前10条

1 王尚坤;赵洁;马爱萍;;基于网络的旅游营销新方式[A];2014中国旅游科学年会论文集[C];2014年

2 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年

3 纪雪梅;王芳;;在线社交网络用户情感传播研究[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年

4 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年

5 刘勇;王永庆;;掘金社会化媒体[A];第九届(2014)中国管理学年会——管理与决策科学分会场论文集[C];2014年

6 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年

7 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年

8 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年

9 蒋翠清;王齐林;刘士喜;丁勇;刘尧;;中文社会媒体环境下半监督学习的汽车缺陷识别方法[A];第十六届中国管理科学学术年会论文集[C];2014年

10 Xiaosong Zhou;Xu Sun;Sarah Sharples;;Methods to Study Serendipity[A];User Friendly 2014暨UXPA中国第十一届用户体验行业年会论文集[C];2014年

相关博士学位论文 前10条

1 谷羽;微博客平台的企业公益传播[D];华中科技大学;2013年

2 闫幸;企业微博互动对消费者品牌忠诚和购买意愿的影响机制研究[D];华中科技大学;2013年

3 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年

4 刘灿由;电子海图云服务关键技术研究与实践[D];解放军信息工程大学;2013年

5 刘婷婷;面向云计算的数据安全保护关键技术研究[D];解放军信息工程大学;2013年

6 周飞;顾客互动与渠道协同绩效的关系研究[D];华南理工大学;2013年

7 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年

8 程祥;高效可靠的虚拟网络映射技术研究[D];北京邮电大学;2013年

9 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

10 邓莎莎;支持决策研讨的文本分析方法研究[D];上海交通大学;2013年

相关硕士学位论文 前10条

1 庞胜楠;电视媒体与社交媒体互动研究[D];山东师范大学;2013年

2 刘佳霖;引入互联网搜索量的市场需求预测模型研究[D];北京邮电大学;2013年

3 林品;从网众亚文化到共用能指[D];北京大学;2013年

4 王惟迅;中国微博客平台下网络营销效果影响因素探究[D];北京邮电大学;2013年

5 魏杨;基于新浪微博的企业负面网络舆情传播特征研究[D];安徽大学;2013年

6 周飞凤;MapReduce在科学计算中的研究与改进[D];安徽大学;2013年

7 伊甜园;高校网络舆情预警机制研究[D];华中师范大学;2013年

8 姚海波;微博热点话题检测与趋势预测研究[D];华南理工大学;2013年

9 张敬;网络舆情的热点检测及趋势分析研究[D];华南理工大学;2013年

10 郭伟;大学生利用网络再生资源研究[D];华中师范大学;2013年



本文编号:1597159

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1597159.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5216***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com