当前位置:主页 > 管理论文 > 移动网络论文 >

针对动态网络数据的分布式增量获取方法

发布时间:2018-10-09 11:14
【摘要】:伴随着互联网的爆炸性发展,Web已经发展成为站点遍布全球的巨大信息服务网络,越来越多的人也开始把自己的精力和时间都投向了互联网。电商、视频、论坛、微博等都是获取重要数据的来源。无论是自己想要能够及时获取最新的数据来进行研究亦或者是需要批量获取大量的数据来进行相关分析,都需要一个适当高效的方法来支持这些数据的提取。爬虫技术作为大规模提取数据的技术之一,又重新了映入人们的眼帘。人们在使用爬虫技术从互联网上获取大量的数据的同时,也在不断对其做出改进和完善。在经过对爬虫技术、分布式技术、Docker技术、以及Linux相关技术的学习之后,本论文中总计完成了以下工作:首先提出了实用爬虫的设计思路,并重点详细阐述了信息提取模块和数据存储模块的设计与实现方法以及如何解决网站反爬问题。随后搭建了基于分布式爬虫框架PySpider的分布式爬虫集群来代替人工手动分布式爬虫,并解决了搭建集群时遇到的一些Linux服务器相关问题。接着为了改进分布式爬虫框架PySpider的运行效率,设计并实现了一种使用Docker来构建分布式爬虫集群的方法。对改进前后的爬取效率进行了测试,并对测试结果做出了相应的分析。最后为了结合项目中的实际工作需要,将增量爬虫和分布式爬虫框架PySpider进行了结合,最终实现了基于动态网络数据的分布式增量获取方法。在本文的最后,对目前的工作做出了总结,并对未来的工作进行了相应的展望和部署。
[Abstract]:With the explosive development of the Internet, Web has developed into a huge information service network with sites all over the world, and more people have begun to invest their energy and time on the Internet. E-commerce, video, forums, Weibo and so on are important sources of data. Whether they want to be able to obtain the latest data in time for research or need to obtain a large number of data for correlation analysis, they need a suitable and efficient method to support the extraction of these data. Reptile technology, as one of the large-scale data extraction techniques, has reappeared in people's eyes. While using crawler technology to obtain a large amount of data from the Internet, people are constantly improving and perfecting it. After the study of crawler technology, distributed technology and Linux related technology, the following works have been accomplished in this paper: firstly, the design idea of practical reptile is put forward. The design and implementation of the information extraction module and the data storage module as well as how to solve the backcrawling problem of the website are described in detail. Then, a distributed crawler cluster based on distributed crawler framework (PySpider) is built to replace manual distributed crawler, and some problems related to Linux server are solved. Then, in order to improve the efficiency of distributed crawler framework (PySpider), a method of constructing distributed crawler cluster using Docker is designed and implemented. The crawling efficiency before and after improvement was tested and the test results were analyzed. Finally, in order to meet the practical needs of the project, the incremental crawler and the distributed crawler framework (PySpider) are combined. Finally, the distributed incremental acquisition method based on dynamic network data is realized. At the end of this paper, the current work is summarized, and the future work is prospected and deployed.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 于萍,虞春宜,张尧弼;使用动态网络提高分布应用的性能[J];微型机与应用;2001年01期

2 关治洪;张皓;朱茹;;一类时空切换动态网络的稳定性[J];华中师范大学学报(自然科学版);2006年01期

3 郑海青;井元伟;刘晓平;;一类具有多种耦合时滞的复杂动态网络的牵制同步[J];控制与决策;2010年11期

4 李涛;于晓楠;;延迟复杂动态网络的稳定性研究[J];网络安全技术与应用;2011年08期

5 高琳;杨建业;覃桂敏;;动态网络模式挖掘方法及其应用[J];软件学报;2013年09期

6 陈关荣;;复杂动态网络环境下控制理论遇到的问题与挑战[J];自动化学报;2013年04期

7 段文勇;蔡晨晓;邹云;尤静;;时滞耦合和非时滞耦合的奇异复杂动态网络之同步性准则(英文)[J];控制理论与应用;2013年08期

8 于苹,张尧弼,虞春宜;使用动态网络提高分布应用的性能[J];计算机工程与应用;2002年03期

9 王得蓉;;试论能源管理计算机动态网络体系的建设[J];资源节约与环保;2010年03期

10 郑宏珍,胡屏;动态网络需要动态的安全策略[J];中国信息导报;2002年01期

相关会议论文 前10条

1 朱陈平;孔辉;李莉;古志鸣;熊诗杰;;耦合演化动态网络的稳定效率与反选举人模型[A];2009年第五届全国网络科学论坛论文集[C];2009年

2 徐式蕴;杨莹;;一类复杂动态网络的全局鲁棒H_-/H_∞同步[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

3 卢剑权;Daniel W.C.Ho;曹进德;;脉冲动态网络的一个统一同步标准[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

4 刘斌;雷鸣;余沛;冯春;;具有多藕合时滞的不确定脉冲动态网络的鲁棒指数同步[A];2006全国复杂网络学术会议论文集[C];2006年

5 汪小帆;苏厚胜;;复杂动态网络控制研究进展[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年

6 张海涛;陈志强;周涛;;二阶动态网络的模型预测一致性控制策略研究[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

7 廖丙连;蒋国平;;具有不同拓扑结构的时滞耦合复杂动态网络同步控制[A];中国自动化学会控制理论专业委员会A卷[C];2011年

8 陈姚;吕金虎;;复杂动态网络的有限时间同步[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

9 李常品;陈关荣;周天寿;;带非线性内部耦合函数的复杂动态网络的同步注记[A];第二届全国复杂动态网络学术论坛论文集[C];2005年

10 雷晓;蒋国平;张跃;;复杂动态网络不稳定平衡点的输出反馈牵制控制[A];第24届中国控制与决策会议论文集[C];2012年

相关重要报纸文章 前1条

1 周海龙;秦电:动态网络图实时演示检修进度[N];华北电力报;2005年

相关博士学位论文 前9条

1 赵耀培;动态网络环境下服务组合优化方法的分析与研究[D];北京科技大学;2016年

2 郝修清;几类复杂动态网络的同步与学习控制[D];西安电子科技大学;2015年

3 李圆媛;基于网络的复杂疾病的研究[D];武汉大学;2016年

4 王刚;复杂疾病临界突变的定性理论与统计分析[D];武汉大学;2017年

5 郭晓永;复杂动态网络的自适应同步控制研究[D];西安电子科技大学;2013年

6 陈卓;动态网络上的演化博弈研究[D];上海交通大学;2012年

7 张丽丽;具有相似节点的复杂动态网络镇定与同步控制研究[D];广东工业大学;2014年

8 仲伟松;几类复杂动态网络的若干动力学问题的研究[D];东北大学;2012年

9 朱会宾;复杂动态网络的同步控制及应用[D];江南大学;2011年

相关硕士学位论文 前10条

1 曹煜;针对动态网络数据的分布式增量获取方法[D];北京邮电大学;2017年

2 张阳扬;面向微博突发事件发现的自适应社区检测算法研究及系统实现[D];西南交通大学;2015年

3 梁狄;一类非线性网络系统全局性质与一致性的分析与控制[D];北京工业大学;2015年

4 梁博;基于局部模块度的动态社团检测算法[D];西安电子科技大学;2014年

5 郭争争;复杂动态网络的同步控制研究[D];石家庄铁道大学;2015年

6 刘杰;基于事件触发的有向复杂动态网络同步控制[D];南京邮电大学;2015年

7 羌毅;动态网络中的链接预测方法研究[D];南京邮电大学;2015年

8 朱雪梅;动态网络中自适应社区检测算法研究[D];云南大学;2016年

9 顾婵媛;几类具有时滞的复杂动态网络的外部同步控制分析[D];电子科技大学;2016年

10 马志才;复杂动力学系统的同步问题研究[D];中国矿业大学;2016年



本文编号:2259138

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2259138.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32c2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com