当前位置:主页 > 管理论文 > 移动网络论文 >

基于云平台的分布式高性能网络爬虫的研究与设计

发布时间:2019-03-30 11:47
【摘要】:随着大数据时代的到来,数据成为最宝贵的资源,而网络爬虫技术作为外部数据采集的重要手段,已然成为数据分析的标配。介绍了一种高性能、灵活和便捷的基于云平台的爬虫架构设计和实现。从爬虫的整体架构、分布式设计以及各模块的设计等角度进行了详细的阐述。爬虫各模块用Docker封装,Kubernetes做集群的资源调度和管理,在性能优化上采用了MD5去重树算法、DNS优化和异步I/O等多种策略组合的形式。实验表明,对比未优化的方案,爬虫在性能上具有较明显的优势。
[Abstract]:With the arrival of big data era, data has become the most valuable resource, and Web crawler technology, as an important means of external data collection, has become the standard of data analysis. This paper introduces a high performance, flexible and convenient crawler architecture design and implementation based on cloud platform. In this paper, the whole structure of crawler, distributed design and the design of each module are described in detail. The crawler modules are encapsulated by Docker and Kubernetes is used for resource scheduling and management of cluster. In performance optimization, MD5 de-re-tree algorithm, DNS optimization and asynchronous I / O strategy combination are used to optimize the performance. The experiment shows that the crawler has obvious advantages in performance compared with the unoptimized scheme.
【作者单位】: 广州优亿信息科技有限公司;
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期

2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

3 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期

4 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

5 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期

6 流言;;网络爬虫攻防内幕[J];电脑爱好者;2012年21期

7 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期

8 陈言;颜晨阳;;一种网络爬虫的带缓存非阻塞异步域名解析器模型及其性能分析[J];软件导刊;2009年11期

9 邓岳贵;;启发式搜索在网络爬虫中应用的分析[J];软件导刊;2008年02期

10 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期

相关硕士学位论文 前10条

1 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年

2 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年

3 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年

4 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年

5 姚富贵;基于分布式的商品信息网络爬虫系统的设计与实现[D];华中科技大学;2014年

6 王义华;基于Web服务的虚假评论检测系统设计与实现[D];云南大学;2016年

7 刘小云;网络爬虫技术在云平台上的研究与实现[D];电子科技大学;2016年

8 管圣腾;社区发现算法的研究及其在代码托管平台的应用[D];西南交通大学;2017年

9 蔡光波;面向主题的多线程网络爬虫的设计与实现[D];西北民族大学;2017年

10 刘晶晶;面向微博的网络爬虫研究与实现[D];复旦大学;2012年



本文编号:2450051

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2450051.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1083***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com