当前位置:主页 > 管理论文 > 移动网络论文 >

基于Python的新浪微博数据爬虫

发布时间:2017-12-19 21:10

  本文关键词:基于Python的新浪微博数据爬虫 出处:《计算机应用》2014年11期  论文类型:期刊论文


  更多相关文章: 新浪微博 爬虫 Python 并行 大数据


【摘要】:目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。
【作者单位】: 上海大学计算机工程与科学学院;
【基金】:国家自然科学基金资助项目(91330116) 高等学校博士学科点专项科研基金资助项目(20113108120022) 上海市科委重点项目(11510500300)
【分类号】:TP393.092
【正文快照】: 0引言计算机技术的进步使人们的生活方式逐渐发生改变,社交网络就是一个非常突出的例子。越来越多的人参与到社交网络平台中去,与他人互动,分享各种内容。在大数据时代来临之际,社交网络就像一个巨大的宝库,吸引了大量的研究人员参与到相关内容的研究。在国外,人们针对Twitter

【参考文献】

中国期刊全文数据库 前1条

1 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

【共引文献】

中国期刊全文数据库 前10条

1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期

7 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期

8 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期

9 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期

10 张军洲;连云凯;;基于旅游博客和论坛提高旅游产品质量的模型研究[J];旅游论坛;2012年02期

中国重要会议论文全文数据库 前3条

1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

中国博士学位论文全文数据库 前10条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年

9 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年

10 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年

中国硕士学位论文全文数据库 前10条

1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年

9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年

10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年

【相似文献】

中国期刊全文数据库 前10条

1 曾浩;;基于Python的Web开发框架研究[J];广西轻工业;2011年08期

2 郭晓云;;基于Python和Selenium的新浪微博数据访问[J];电脑编程技巧与维护;2012年15期

3 ;精彩Blog推荐[J];程序员;2007年11期

4 王冉阳;;基于Django和Python的Web开发[J];电脑编程技巧与维护;2009年02期

5 周峰;使用Web构建“Web”[J];个人电脑;2001年07期

6 汤韬;;Zope——独树一帜的Web框架[J];程序员;2003年07期

7 杨晶;;基于Python的MoinMoin[J];软件世界;2007年18期

8 张琦;;利用Python统计数据包特征值的研究[J];计算机安全;2011年06期

9 徐长瑜;;基于Google云的日程管理云服务的研究与实现[J];科技信息;2010年18期

10 丛宏斌;魏秀菊;王柳;朱明;曾勰婷;刘丽英;;利用PYTHON解析网络上传数据[J];中国科技期刊研究;2013年04期

中国硕士学位论文全文数据库 前1条

1 周一丁;基于面向服务并行计算的Python计算网格[D];上海交通大学;2008年



本文编号:1309438

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1309438.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afa3c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com