基于Scrapy的物流资讯网站群爬虫系统设计与实现
发布时间:2021-09-09 20:44
为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站.群爬虫、项目管道、2个中间件、Scrap.y配置6个模块。经过实验,共爬取了10个物流资讯网站的8585万个网页,爬取平均速度峰值达到223个/秒。
【文章来源】:物流技术与应用. 2020,25(08)
【文章页数】:4 页
【部分图文】:
从10个物流资讯网站爬取的网页数量
图4 从10个物流资讯网站爬取的网页数量其中,从中国物流与采购联合会网站爬取了556,932个网页,从北京物流协会网站爬取了263,356个网页,从这两个网站爬取的网页数量占到总数的95.6%,可见资讯信息相对比较集中。
现已有不少相对成熟的爬虫系统框架,如Crawler4j、Scrapy等。Crawler4j和Scrapy分别支持用Java语言、Python语言开发爬虫系统,均支持多线程爬取数据,且均为开源系统。已有许多应用系统基于这些框架编写,如物流车货源信息的抽取系统、农业网络空间信息系统等。为确保爬虫系统的成熟和稳定,这里不打算研发新的爬虫系统框架,而是使用现有成熟、开源的Scrapy框架技术来研发出物流资讯网站群的爬虫系统。图2 物流资讯网站群爬虫系统的技术架构
【参考文献】:
期刊论文
[1]网络爬虫在拟在工程项目数据分析中的应用[J]. 张建根,于耀祖. 科技风. 2021(19)
[2]一种面向互联网文本数据采集框架的设计[J]. 贺宗平,王正路. 电子技术与软件工程. 2021(12)
[3]全国高职专科电子商务类专业点布局的大数据分析[J]. 邓子云. 职业技术教育. 2021(05)
[4]全国高职专业点数据爬虫的设计与实现[J]. 邓子云. 南方职业教育学刊. 2021(01)
本文编号:3392757
【文章来源】:物流技术与应用. 2020,25(08)
【文章页数】:4 页
【部分图文】:
从10个物流资讯网站爬取的网页数量
图4 从10个物流资讯网站爬取的网页数量其中,从中国物流与采购联合会网站爬取了556,932个网页,从北京物流协会网站爬取了263,356个网页,从这两个网站爬取的网页数量占到总数的95.6%,可见资讯信息相对比较集中。
现已有不少相对成熟的爬虫系统框架,如Crawler4j、Scrapy等。Crawler4j和Scrapy分别支持用Java语言、Python语言开发爬虫系统,均支持多线程爬取数据,且均为开源系统。已有许多应用系统基于这些框架编写,如物流车货源信息的抽取系统、农业网络空间信息系统等。为确保爬虫系统的成熟和稳定,这里不打算研发新的爬虫系统框架,而是使用现有成熟、开源的Scrapy框架技术来研发出物流资讯网站群的爬虫系统。图2 物流资讯网站群爬虫系统的技术架构
【参考文献】:
期刊论文
[1]网络爬虫在拟在工程项目数据分析中的应用[J]. 张建根,于耀祖. 科技风. 2021(19)
[2]一种面向互联网文本数据采集框架的设计[J]. 贺宗平,王正路. 电子技术与软件工程. 2021(12)
[3]全国高职专科电子商务类专业点布局的大数据分析[J]. 邓子云. 职业技术教育. 2021(05)
[4]全国高职专业点数据爬虫的设计与实现[J]. 邓子云. 南方职业教育学刊. 2021(01)
本文编号:3392757
本文链接:https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/3392757.html