多策略融合的中文微博数据采集方法
发布时间:2021-08-05 05:29
在基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的对比分析基础上,提出了一种多策略融合的中文微博数据采集方法。设计实现了广度优先的微博数据采集算法和随机活跃用户微博数据采集算法,全面高效采集中文微博中的用户ID数据、用户个人信息数据、用户微博信息数据和微博用户关注信息数据,为微博社会网络分析提供有价值的微博信息源。真实数据集上的实验结果表明,该方法不仅具有较高的采集效率,而且还具有很好的用户覆盖面。
【文章来源】:计算机工程与设计. 2013,34(11)北大核心CSCD
【文章页数】:5 页
【文章目录】:
0引言
1多策略融合的中文微博数据采集方法
1.1多策略融合的微博数据采集框架
1.2广度优先微博数据采集
1.3随机活跃用户微博采集
2实验及结果分析
3结束语
本文编号:3323162
【文章来源】:计算机工程与设计. 2013,34(11)北大核心CSCD
【文章页数】:5 页
【文章目录】:
0引言
1多策略融合的中文微博数据采集方法
1.1多策略融合的微博数据采集框架
1.2广度优先微博数据采集
1.3随机活跃用户微博采集
2实验及结果分析
3结束语
本文编号:3323162
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3323162.html