针对动态网络数据的分布式增量获取方法
[Abstract]:With the explosive development of the Internet, Web has developed into a huge information service network with sites all over the world, and more people have begun to invest their energy and time on the Internet. E-commerce, video, forums, Weibo and so on are important sources of data. Whether they want to be able to obtain the latest data in time for research or need to obtain a large number of data for correlation analysis, they need a suitable and efficient method to support the extraction of these data. Reptile technology, as one of the large-scale data extraction techniques, has reappeared in people's eyes. While using crawler technology to obtain a large amount of data from the Internet, people are constantly improving and perfecting it. After the study of crawler technology, distributed technology and Linux related technology, the following works have been accomplished in this paper: firstly, the design idea of practical reptile is put forward. The design and implementation of the information extraction module and the data storage module as well as how to solve the backcrawling problem of the website are described in detail. Then, a distributed crawler cluster based on distributed crawler framework (PySpider) is built to replace manual distributed crawler, and some problems related to Linux server are solved. Then, in order to improve the efficiency of distributed crawler framework (PySpider), a method of constructing distributed crawler cluster using Docker is designed and implemented. The crawling efficiency before and after improvement was tested and the test results were analyzed. Finally, in order to meet the practical needs of the project, the incremental crawler and the distributed crawler framework (PySpider) are combined. Finally, the distributed incremental acquisition method based on dynamic network data is realized. At the end of this paper, the current work is summarized, and the future work is prospected and deployed.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 于萍,虞春宜,张尧弼;使用动态网络提高分布应用的性能[J];微型机与应用;2001年01期
2 关治洪;张皓;朱茹;;一类时空切换动态网络的稳定性[J];华中师范大学学报(自然科学版);2006年01期
3 郑海青;井元伟;刘晓平;;一类具有多种耦合时滞的复杂动态网络的牵制同步[J];控制与决策;2010年11期
4 李涛;于晓楠;;延迟复杂动态网络的稳定性研究[J];网络安全技术与应用;2011年08期
5 高琳;杨建业;覃桂敏;;动态网络模式挖掘方法及其应用[J];软件学报;2013年09期
6 陈关荣;;复杂动态网络环境下控制理论遇到的问题与挑战[J];自动化学报;2013年04期
7 段文勇;蔡晨晓;邹云;尤静;;时滞耦合和非时滞耦合的奇异复杂动态网络之同步性准则(英文)[J];控制理论与应用;2013年08期
8 于苹,张尧弼,虞春宜;使用动态网络提高分布应用的性能[J];计算机工程与应用;2002年03期
9 王得蓉;;试论能源管理计算机动态网络体系的建设[J];资源节约与环保;2010年03期
10 郑宏珍,胡屏;动态网络需要动态的安全策略[J];中国信息导报;2002年01期
相关会议论文 前10条
1 朱陈平;孔辉;李莉;古志鸣;熊诗杰;;耦合演化动态网络的稳定效率与反选举人模型[A];2009年第五届全国网络科学论坛论文集[C];2009年
2 徐式蕴;杨莹;;一类复杂动态网络的全局鲁棒H_-/H_∞同步[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
3 卢剑权;Daniel W.C.Ho;曹进德;;脉冲动态网络的一个统一同步标准[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
4 刘斌;雷鸣;余沛;冯春;;具有多藕合时滞的不确定脉冲动态网络的鲁棒指数同步[A];2006全国复杂网络学术会议论文集[C];2006年
5 汪小帆;苏厚胜;;复杂动态网络控制研究进展[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
6 张海涛;陈志强;周涛;;二阶动态网络的模型预测一致性控制策略研究[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
7 廖丙连;蒋国平;;具有不同拓扑结构的时滞耦合复杂动态网络同步控制[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 陈姚;吕金虎;;复杂动态网络的有限时间同步[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
9 李常品;陈关荣;周天寿;;带非线性内部耦合函数的复杂动态网络的同步注记[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
10 雷晓;蒋国平;张跃;;复杂动态网络不稳定平衡点的输出反馈牵制控制[A];第24届中国控制与决策会议论文集[C];2012年
相关重要报纸文章 前1条
1 周海龙;秦电:动态网络图实时演示检修进度[N];华北电力报;2005年
相关博士学位论文 前9条
1 赵耀培;动态网络环境下服务组合优化方法的分析与研究[D];北京科技大学;2016年
2 郝修清;几类复杂动态网络的同步与学习控制[D];西安电子科技大学;2015年
3 李圆媛;基于网络的复杂疾病的研究[D];武汉大学;2016年
4 王刚;复杂疾病临界突变的定性理论与统计分析[D];武汉大学;2017年
5 郭晓永;复杂动态网络的自适应同步控制研究[D];西安电子科技大学;2013年
6 陈卓;动态网络上的演化博弈研究[D];上海交通大学;2012年
7 张丽丽;具有相似节点的复杂动态网络镇定与同步控制研究[D];广东工业大学;2014年
8 仲伟松;几类复杂动态网络的若干动力学问题的研究[D];东北大学;2012年
9 朱会宾;复杂动态网络的同步控制及应用[D];江南大学;2011年
相关硕士学位论文 前10条
1 曹煜;针对动态网络数据的分布式增量获取方法[D];北京邮电大学;2017年
2 张阳扬;面向微博突发事件发现的自适应社区检测算法研究及系统实现[D];西南交通大学;2015年
3 梁狄;一类非线性网络系统全局性质与一致性的分析与控制[D];北京工业大学;2015年
4 梁博;基于局部模块度的动态社团检测算法[D];西安电子科技大学;2014年
5 郭争争;复杂动态网络的同步控制研究[D];石家庄铁道大学;2015年
6 刘杰;基于事件触发的有向复杂动态网络同步控制[D];南京邮电大学;2015年
7 羌毅;动态网络中的链接预测方法研究[D];南京邮电大学;2015年
8 朱雪梅;动态网络中自适应社区检测算法研究[D];云南大学;2016年
9 顾婵媛;几类具有时滞的复杂动态网络的外部同步控制分析[D];电子科技大学;2016年
10 马志才;复杂动力学系统的同步问题研究[D];中国矿业大学;2016年
,本文编号:2259138
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2259138.html