在线社交网络数据采集策略研究
发布时间:2021-04-26 02:24
近几十年来,互联网历经时代的变革,在线社交网络(OSNs)将人们的面对面的交流逐渐改变为线上虚拟的方式。OSNs注册用户总量及其庞大,人们越爱越重视这类网络数据的研究。与此同时由于数据量庞大,网络结构复杂,使得对整个OSNs进行研究时耗费大量的人力物力。一个可靠的OSNs采样算法可以帮助研究者从完整网络中采集小型代表性样本网络,对于OSNs数据研究意义重大。现有的网络采样算法如广度优先采样算法(BFS),Metropolis-Hasting随机游走算法(MHRW)等已能够从Twitter等大型网络中采集样本网络。但BFS采集的样本节点度数偏高,MHRW采样容易陷入连通良好的子区域。针对现有OSNs采样算法存在的各种弊端,导致采集的样本网络无法反应原始网络特性的问题,本文以网络采样算法为核心内容展开研究。文中主要研究内容如下:1.针对MHRW采样方法无法采集低连通的社交网络的节点,采样过程中易于陷入连通良好的子区域导致部分节点过度入样,获取的样本节点集的特征指标与原始偏差较大等问题。加入节点存储区和全局节点以及存储区的跳跃参数,提出一种多重跳跃无偏的顶点采样算法(MJU),不仅解决了 M...
【文章来源】:浙江理工大学浙江省
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景及意义
1.2 论文的主要贡献
1.3 论文的组织结构
第二章 在线社交网络采样算法概述
2.1 采样的基本概念
2.2 在线社交网络采样算法
2.2.1 广度优先搜索算法(BFS)
2.2.2 用户均匀采样法(UNI)
2.2.3 随机行走采样算法(RW)
2.2.4 马尔科夫链蒙特卡洛采样算法(MHRW)
2.2.5 信天翁采样算法(AS)
2.2.6 无偏延迟采样算法(UD)
2.3 本章小结
第三章 基于多重跳跃的采样研究
3.1 设计思想
3.2 MJU算法描述
3.2.1 三维样本节点更新率分布模型进行跳跃参数分析
3.2.2 多重跳跃参数选取
3.2.3 算法的无偏性
3.3 MJU算法伪代码及流程图
3.4 实验数据集描述
3.5 采样性能的对比实验
3.5.1 样本更新率分析
3.5.2 网络的同配性分析
3.5.3 网络度分布分析
3.5.4 收敛性分析
3.6本章小结
第四章 基于MJU采样算法的网络爬虫系统
4.1 社交网络爬虫系统框架
4.1.1 控制器
4.1.2 HTML下载器和解析器
4.1.3 资源库
4.2 系统执行流程
4.3 本章小结
第五章总结与展望
5.1 全文总结
5.2 后续工作与展望
参考文献
攻读硕士学位期间参加的科研项目和研宄成果
致谢
本文编号:3160546
【文章来源】:浙江理工大学浙江省
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景及意义
1.2 论文的主要贡献
1.3 论文的组织结构
第二章 在线社交网络采样算法概述
2.1 采样的基本概念
2.2 在线社交网络采样算法
2.2.1 广度优先搜索算法(BFS)
2.2.2 用户均匀采样法(UNI)
2.2.3 随机行走采样算法(RW)
2.2.4 马尔科夫链蒙特卡洛采样算法(MHRW)
2.2.5 信天翁采样算法(AS)
2.2.6 无偏延迟采样算法(UD)
2.3 本章小结
第三章 基于多重跳跃的采样研究
3.1 设计思想
3.2 MJU算法描述
3.2.1 三维样本节点更新率分布模型进行跳跃参数分析
3.2.2 多重跳跃参数选取
3.2.3 算法的无偏性
3.3 MJU算法伪代码及流程图
3.4 实验数据集描述
3.5 采样性能的对比实验
3.5.1 样本更新率分析
3.5.2 网络的同配性分析
3.5.3 网络度分布分析
3.5.4 收敛性分析
3.6本章小结
第四章 基于MJU采样算法的网络爬虫系统
4.1 社交网络爬虫系统框架
4.1.1 控制器
4.1.2 HTML下载器和解析器
4.1.3 资源库
4.2 系统执行流程
4.3 本章小结
第五章总结与展望
5.1 全文总结
5.2 后续工作与展望
参考文献
攻读硕士学位期间参加的科研项目和研宄成果
致谢
本文编号:3160546
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3160546.html