基于Scrapy的物流资讯网站群爬虫系统设计与实现

发布时间：2021-09-09 20:44

　　为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站.群爬虫、项目管道、2个中间件、Scrap.y配置6个模块。经过实验,共爬取了10个物流资讯网站的8585万个网页,爬取平均速度峰值达到223个/秒。

【文章来源】：物流技术与应用. 2020,25(08)

【文章页数】：4 页

【部分图文】：

从10个物流资讯网站爬取的网页数量

线程,网页,网站,资讯

图4 从10个物流资讯网站爬取的网页数量其中，从中国物流与采购联合会网站爬取了556,932个网页，从北京物流协会网站爬取了263,356个网页，从这两个网站爬取的网页数量占到总数的95.6%，可见资讯信息相对比较集中。

资讯,网站,功能设计,框架

现已有不少相对成熟的爬虫系统框架，如Crawler4j、Scrapy等。Crawler4j和Scrapy分别支持用Java语言、Python语言开发爬虫系统，均支持多线程爬取数据，且均为开源系统。已有许多应用系统基于这些框架编写，如物流车货源信息的抽取系统、农业网络空间信息系统等。为确保爬虫系统的成熟和稳定，这里不打算研发新的爬虫系统框架，而是使用现有成熟、开源的Scrapy框架技术来研发出物流资讯网站群的爬虫系统。图2 物流资讯网站群爬虫系统的技术架构

【参考文献】：
期刊论文
[1]网络爬虫在拟在工程项目数据分析中的应用[J]. 张建根,于耀祖.  科技风. 2021(19)
[2]一种面向互联网文本数据采集框架的设计[J]. 贺宗平,王正路.  电子技术与软件工程. 2021(12)
[3]全国高职专科电子商务类专业点布局的大数据分析[J]. 邓子云.  职业技术教育. 2021(05)
[4]全国高职专业点数据爬虫的设计与实现[J]. 邓子云.  南方职业教育学刊. 2021(01)

本文编号：3392757

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/3392757.html

上一篇：新冠全球大流行背景下中国对外贸易的风险与对策探讨
下一篇：云环境下铁路“门到门”货运产品设计优化方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|