当前位置:主页 > 管理论文 > 移动网络论文 >

基于微博API的分布式抓取技术

发布时间:2018-08-21 11:53
【摘要】:随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器高效地获取微博数据。该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能。本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点。新浪微博数据爬取实例验证了该技术的可行性。
[Abstract]:With the rapid growth of Weibo users, more and more people want to mine interesting patterns from their behavior and Weibo content. In view of how to collect Weibo data effectively and reasonably, this paper puts forward a distributed grab technology based on Weibo API, which can control the frequency of API call reasonably by simulating the automatic authorization of Weibo login. The Weibo data is obtained efficiently by the task assignment controller. The distributed crawling technology also combines time trigger and memory database technology to realize repetitive control, which avoids the repeated crawling and storage of data, and improves the performance of the system. The distributed crawling technology is characterized by high scalability, clear assignment of tasks, high efficiency and various crawling strategies adapted to different crawling requirements. Sina Weibo data crawling examples to verify the feasibility of the technology.
【作者单位】: 广东工业大学计算机学院;广州优亿信息科技有限公司;
【分类号】:TP393.092

【参考文献】

相关期刊论文 前7条

1 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期

2 漆晨曦;;电信企业大数据分析、应用及管理发展策略[J];电信科学;2013年03期

3 王晶;朱珂;汪斌强;;基于信息数据分析的微博研究综述[J];计算机应用;2012年07期

4 李保秀;;微博社交网络舆情监测指标体系构建[J];科技广场;2012年04期

5 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期

6 王亮;;SNS社交网络发展现状及趋势[J];现代电信科技;2009年06期

7 李军;陈震;黄霁崴;;微博影响力评价研究[J];信息网络安全;2012年03期

相关硕士学位论文 前1条

1 王娟;微博客用户的使用动机与行为[D];山东大学;2010年

【共引文献】

相关期刊论文 前10条

1 陈蕾;;社会资本视野下的SNS网站[J];北方文学(下半月);2011年11期

2 李慧慧;;移动SNS——人类交流的又一延伸[J];东南传播;2010年05期

3 雷轶;;我国SNS社交网站的盈利模式研究[J];电子商务;2011年07期

4 刘晓丽;宋朝霞;;SNS网站与搜索引擎融合的可能性和策略探讨[J];电子商务;2011年09期

5 肖扬;段学东;;敏捷开发方法下的基于LBS的篮球类体育SNS社区的设计[J];福建电脑;2012年03期

6 李天健;;改善社交网络安全对策思考[J];计算机光盘软件与应用;2012年04期

7 刘燕锦;;社交网站和微博的信息传播比较——以社会网络分析结果为依据[J];东南传播;2012年09期

8 张国安;钟绍辉;;基于k均值聚类的微博用户分类的研究[J];电脑知识与技术;2012年26期

9 张国安;钟绍辉;;基于微博用户评论和用户转发的数据挖掘[J];电脑知识与技术;2012年27期

10 周怡;;高校学生使用微博状况及其影响评价分析[J];长沙通信职业技术学院学报;2012年04期

相关会议论文 前1条

1 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

相关博士学位论文 前2条

1 王睿;企业微博营销影响因素与短期效果测量研究[D];北京邮电大学;2012年

2 吴保来;基于互联网的社交网络研究[D];中共中央党校;2013年

相关硕士学位论文 前10条

1 马晓宁;中国微博客价值与发展研究[D];南昌大学;2010年

2 王立民;中国SNS网站发展策略研究[D];华东理工大学;2011年

3 李峰;我国休闲娱乐型SNS网站发展的传播学分析[D];山东师范大学;2011年

4 邓冬娜;新浪微博商业模式发展研究[D];西北大学;2011年

5 杨莉;基于SNS的主题式协作学习平台研究[D];西南大学;2011年

6 张钰雪;新浪微博传播机制研究[D];西南大学;2011年

7 武茜;基于Qt的移动微博系统客户端设计与实现[D];北京邮电大学;2011年

8 殷崴;SNS社交网站成员在不同信任模式下使用动机与行为研究[D];北京邮电大学;2011年

9 蓝勤华;用户创造内容(UGC)动机研究[D];南京大学;2011年

10 高娴子;近年来我国社交网络发展研究[D];暨南大学;2011年

【二级参考文献】

相关期刊论文 前10条

1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

2 刘晖;;Twitter:微博客时代的到来[J];传媒;2009年10期

3 李丹;;社交网站用户的行为和动机[J];传媒观察;2009年04期

4 刘文勇;;新时代传播的宠儿——病毒式传播[J];东南传播;2007年09期

5 刘丽清;;微博虽“微”足值道尔——微博特性之浅析[J];东南传播;2009年11期

6 许晓东;肖银涛;朱士瑞;;微博社区的谣言传播仿真研究[J];计算机工程;2011年10期

7 袁鹏亮;;基于Pagerank网页排名技术计算方法的探讨[J];农业网络信息;2007年12期

8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

9 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

10 姚峰;;Java平台中Base64编码/解码算法的改进[J];计算机应用与软件;2008年12期

相关重要报纸文章 前2条

1 马晓芳;[N];第一财经日报;2009年

2 本报记者 刘菁菁;[N];计算机世界;2009年

相关博士学位论文 前1条

1 陈锡钧;网络即时传播软件使用者需求研究[D];复旦大学;2007年

相关硕士学位论文 前4条

1 汪名彦;博客用户写作动机与写作行为的关系研究[D];浙江大学;2006年

2 刘耀庭;社交网络结构研究[D];浙江大学;2008年

3 赵青;高校研究生网络依赖的动机研究[D];东北师范大学;2008年

4 王娟;微博客用户的使用动机与行为[D];山东大学;2010年

【相似文献】

相关期刊论文 前10条

1 刘兴平;马燕;杜利峰;;插件技术研究初探[J];延安大学学报(自然科学版);2006年01期

2 刘建明;贺占庄;;面向用户的1553B指令系统设计[J];微电子学与计算机;2006年06期

3 周强,罗志强;SCI协议标准综述[J];航空电子技术;2001年02期

4 叶安胜;周晓清;;ADO.NET通用数据库访问组件构建与应用[J];现代电子技术;2009年18期

5 章美仁;李希文;;基于XML的数据操作描述语言设计[J];台州学院学报;2009年03期

6 叶海明;周绍磊;徐俊彦;;通用测试系统模型化技术研究[J];计算机测量与控制;2009年09期

7 陈然,杜晓黎;基于统一接口的机群中交换机监控系统的设计[J];计算机工程;2005年16期

8 董涌江;;全插件GIS应用框架的设计与实现[J];北京测绘;2009年01期

9 叶传华;;基于C#.NET的通用数据访问接口的实现与应用[J];数字技术与应用;2010年10期

10 肖建清;丁德馨;张萍;徐根;;插件式疲劳分析软件的体系结构研究[J];计算机工程与设计;2009年12期

相关会议论文 前10条

1 袁松贵;吴敏;何勇;付成宏;;基于二维模型的非脆弱离散重复控制[A];第二十九届中国控制会议论文集[C];2010年

2 兰永红;吴敏;佘锦华;;基于二维混合模型的最优重复控制[A];第二十六届中国控制会议论文集[C];2007年

3 聂智军;王宝园;;基于分区策略的RANS方程并行算法可扩展性分析[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年

4 李芳;边馥苓;;构件化GIS的可扩展性研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年

5 赵佳;关淼;沈颂华;王永;;基于重复控制技术的航空静止变流器[A];2006中国电工技术学会电力电子学会第十届学术年会论文摘要集[C];2006年

6 侯婷;裴雪军;刘明先;康勇;;大功率组合式三相逆变电源的控制技术研究[A];2006中国电工技术学会电力电子学会第十届学术年会论文摘要集[C];2006年

7 武健;郭伟峰;徐殿国;;基于重复控制的并联混合有源滤波器实验研究[A];2008中国电工技术学会电力电子学会第十一届学术年会论文摘要集[C];2008年

8 简林柯;李新忠;何钺;;重复控制及其在多致动器同步运动控制中的应用[A];1997年中国控制会议论文集[C];1997年

9 郭丹旦;刘向东;张宇河;苏延雄;;伺服系统摩擦补偿的重复控制策略[A];第二十一届中国控制会议论文集[C];2002年

10 高保忠;;对等网的流量拥塞问题研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年

相关重要报纸文章 前10条

1 本报记者 余侃;借力“333”系统无短板[N];中国电脑教育报;2009年

2 本报记者 梁靓;DiiVA接口加速普及 中国增强话语权[N];中国电子报;2009年

3 於红斌 本报特约记者 丁顺国;为战时保障预留接口[N];解放军报;2009年

4 胡强;手机充电器标准升级有望年内获批[N];经理日报;2009年

5 中国软件评测中心媒体测试部;以最精简配置 提供最高性价比[N];中国计算机报;2008年

6 王松涛;重庆:家装应设置信息化接口[N];中国建设报;2008年

7 杜树臻 张立平;抓好接口补差训练[N];中国国防报;2001年

8 本报记者 胡强;手机充电器标准升级年内完成[N];通信产业报;2009年

9 本报记者 胡强;手机充电器接口年内统一[N];通信产业报;2009年

10 何丹婵 实习生 姜樊;DiiVA接口将看电视转为用电视[N];科技日报;2009年

相关博士学位论文 前10条

1 赵富;低频线振动台的重复控制研究[D];哈尔滨工业大学;2010年

2 赵富;低频线振动台的重复控制研究[D];哈尔滨工业大学;2010年

3 王之元;并行计算可扩展性分析与优化[D];国防科学技术大学;2011年

4 陈东;并网逆变器系统中的重复控制技术及其应用研究[D];浙江大学;2013年

5 陈宏;基于重复控制理论的逆变电源控制技术研究[D];南京航空航天大学;2003年

6 兰永红;基于二维模型的重复控制系统分析与设计[D];中南大学;2010年

7 周兰;基于连续—离散二维模型的周期系数线性系统鲁棒重复控制设计[D];中南大学;2011年

8 陈军;分布式存储环境下并行计算可扩展性的研究与应用[D];中国人民解放军国防科学技术大学;2000年

9 陈娟;伺服系统低速特性与抖动补偿研究[D];中国科学院长春光学精密机械与物理研究所;2001年

10 周伯生;移动自组网络中可扩展性路由策略研究[D];东南大学;2003年

相关硕士学位论文 前10条

1 吴昊;USB-PC104接口的设计与实现[D];四川大学;2005年

2 王森;虹膜生物识别软件系统框架设计[D];吉林大学;2005年

3 陈建;基于Domino/Notes平台下的办公自动化设计[D];电子科技大学;2005年

4 高俊杰;基于OPC的实时数据库技术与应用[D];北京化工大学;2005年

5 曲艳华;光学电流互感器在继电保护中的应用[D];华北电力大学(河北);2005年

6 邢云涛;面向对象数据库ONet系统组件化体系的重构与实现[D];浙江大学;2006年

7 莫非;win版纳税申报录入系统的开发与加密[D];天津大学;2004年

8 高育鹏;嵌入式网络测控服务器的研究与实现[D];西北工业大学;2006年

9 李建军;基于COM/DCOM的组件技术研究与应用[D];同济大学;2006年

10 姜国树;大连网通软交换网的设计与实现[D];大连海事大学;2007年



本文编号:2195632

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2195632.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c100e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com