社交网络数据采集及传播路径分析
发布时间:2023-06-16 19:30
在互联网高速发展的今天,网络用户的快速增长直接导致了互联网上的舆论呈现出爆炸式的增长,尤其是当社交网络平台的出现之后,舆论的传播更加是不受控制。舆论监控也成为近年来研究的重点问题。本文主要针对现今社交网络中最具有代表性的两个平台Facebook和Twitter进行研究。研究过程主要分为两部分:第一、设计一套优良的采集系统针对Facebook和Twitter进行数据采集,设计过程中,我们分析了两个平台的登陆授权协议OAuth的工作原理、针对不同对象数据采集的API格式和第三方SDK的使用。考虑到Facebook的好友获取局限性,我们针对Facebook使用基于HTTP流和API结合的方式来获取用户数据,而Twitter使用API获取用户数据的方式。最后针对Facebook和Twitter获取数据的性能进行比较。第二、针对获取到的社交网络数据进行分析处理,首先对抓取到的240W条的推文消息进行过滤操作,区分出中文和英文;然后分析推文的转发格式,对推文进行预处理,通过正则表达式提取出转发关系,最后使用基于simhash的方法对预处理后的推文进行去重操作,统计重复推文数据,分析实验结果。之后收...
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 课题研究背景、内容及意义
1.2 国内外研究现状
1.2.1 Web2.0 和社交网络的发展
1.2.2 网络采集及其现状分析
1.2.3 传播路径现状分析
1.3 论文贡献
1.4 论文安排
2 社交网络数据采集
2.1 OAuth 协议介绍
2.2 系统接口介绍
2.3 系统总体设计
2.3.1 登陆模块
2.3.2 数据获取模块
2.3.3 数据搜索模块
2.3.4 数据表的设计
2.4 采集性能和需要注意的问题
2.5 本章小结
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相关工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方转发格式
3.3.2 Twitter 消息的非官方转发格式
3.3.3 Twitter 中推文的预处理
3.3.4 消息去重的方法
3.4 去重实验数据分析
3.4.1 统计推文语言分布
3.4.2 推文长度分布统计
3.4.3 预处理后推文长度的分布
3.4.4 推文去重
3.4.5 用户发送消息
3.4.6 重复数据展示
3.4.7 系统界面展示
3.5 本章小结
4 推文转发分析
4.1 实验设计过程
4.2 实验结果数据分析和展示
4.3 本章小结
结论
致谢
个人简介
参考文献
本文编号:3833848
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 课题研究背景、内容及意义
1.2 国内外研究现状
1.2.1 Web2.0 和社交网络的发展
1.2.2 网络采集及其现状分析
1.2.3 传播路径现状分析
1.3 论文贡献
1.4 论文安排
2 社交网络数据采集
2.1 OAuth 协议介绍
2.2 系统接口介绍
2.3 系统总体设计
2.3.1 登陆模块
2.3.2 数据获取模块
2.3.3 数据搜索模块
2.3.4 数据表的设计
2.4 采集性能和需要注意的问题
2.5 本章小结
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相关工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方转发格式
3.3.2 Twitter 消息的非官方转发格式
3.3.3 Twitter 中推文的预处理
3.3.4 消息去重的方法
3.4 去重实验数据分析
3.4.1 统计推文语言分布
3.4.2 推文长度分布统计
3.4.3 预处理后推文长度的分布
3.4.4 推文去重
3.4.5 用户发送消息
3.4.6 重复数据展示
3.4.7 系统界面展示
3.5 本章小结
4 推文转发分析
4.1 实验设计过程
4.2 实验结果数据分析和展示
4.3 本章小结
结论
致谢
个人简介
参考文献
本文编号:3833848
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3833848.html