基于Python的新浪微博数据爬虫
本文关键词:基于Python的新浪微博数据爬虫 出处:《计算机应用》2014年11期 论文类型:期刊论文
【摘要】:目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。
【作者单位】: 上海大学计算机工程与科学学院;
【基金】:国家自然科学基金资助项目(91330116) 高等学校博士学科点专项科研基金资助项目(20113108120022) 上海市科委重点项目(11510500300)
【分类号】:TP393.092
【正文快照】: 0引言计算机技术的进步使人们的生活方式逐渐发生改变,社交网络就是一个非常突出的例子。越来越多的人参与到社交网络平台中去,与他人互动,分享各种内容。在大数据时代来临之际,社交网络就像一个巨大的宝库,吸引了大量的研究人员参与到相关内容的研究。在国外,人们针对Twitter
【参考文献】
中国期刊全文数据库 前1条
1 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
7 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
8 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期
9 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期
10 张军洲;连云凯;;基于旅游博客和论坛提高旅游产品质量的模型研究[J];旅游论坛;2012年02期
中国重要会议论文全文数据库 前3条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
9 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年
10 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 曾浩;;基于Python的Web开发框架研究[J];广西轻工业;2011年08期
2 郭晓云;;基于Python和Selenium的新浪微博数据访问[J];电脑编程技巧与维护;2012年15期
3 ;精彩Blog推荐[J];程序员;2007年11期
4 王冉阳;;基于Django和Python的Web开发[J];电脑编程技巧与维护;2009年02期
5 周峰;使用Web构建“Web”[J];个人电脑;2001年07期
6 汤韬;;Zope——独树一帜的Web框架[J];程序员;2003年07期
7 杨晶;;基于Python的MoinMoin[J];软件世界;2007年18期
8 张琦;;利用Python统计数据包特征值的研究[J];计算机安全;2011年06期
9 徐长瑜;;基于Google云的日程管理云服务的研究与实现[J];科技信息;2010年18期
10 丛宏斌;魏秀菊;王柳;朱明;曾勰婷;刘丽英;;利用PYTHON解析网络上传数据[J];中国科技期刊研究;2013年04期
中国硕士学位论文全文数据库 前1条
1 周一丁;基于面向服务并行计算的Python计算网格[D];上海交通大学;2008年
,本文编号:1309438
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1309438.html