基于Scrapy分布式的暗网探测爬虫构建
发布时间:2021-07-03 06:10
暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于Scrapy分布式的暗网探测爬虫方法。将暗网使用的socks5协议转化为爬虫支持的http协议,再利用Python的Scrapy爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。
【文章来源】:计算机时代. 2020,(04)
【文章页数】:5 页
【部分图文】:
Tor通信网络结构
Scrapy是基于python程序语言编写的爬虫框架,其结构清晰,模块之间的耦合程度低,拥有极好的可扩展性,方便对暗网站点各种定制化的需求。Scrapy框架的执行流程如图3所示。⑴执行引擎从调度器中获取一个待爬取的暗网站点链接并将其封装成一个请求后传递给下载器;
状态管理器起到维护爬取列队的作用,可以在一台独立的服务器,也可以在爬虫的任何一台分发器。爬虫分发器,负责数据抓取、数据处理、数据存储。在其他两台服务器中进行相同的环境部署,最后在Redis服务器端启动redis服务,执行LPUSH命令同时启动三台爬虫服务器。4 实验结果分析
【参考文献】:
期刊论文
[1]基于Tor的暗网数据爬虫设计与实现[J]. 汤艳君,安俊霖. 信息安全研究. 2019(09)
[2]基于Tor的暗网空间资源探测[J]. 杨溢,郭晗,王轶骏,薛质. 通信技术. 2017(10)
[3]基于Freenet的暗网空间资源探测[J]. 郭晗,王轶骏,薛质. 通信技术. 2017(09)
[4]“暗网”应用情况及监管方法研究[J]. 赵志云,张旭,罗铮,袁卫平. 知识管理论坛. 2016(02)
[5]基于领域知识抽样的深网资源采集方法[J]. 林海伦,熊锦华,王博,程学旗. 中文信息学报. 2016(02)
硕士论文
[1]暗网数据源分类算法的研究和实现[D]. 李亚.成都理工大学 2013
本文编号:3262031
【文章来源】:计算机时代. 2020,(04)
【文章页数】:5 页
【部分图文】:
Tor通信网络结构
Scrapy是基于python程序语言编写的爬虫框架,其结构清晰,模块之间的耦合程度低,拥有极好的可扩展性,方便对暗网站点各种定制化的需求。Scrapy框架的执行流程如图3所示。⑴执行引擎从调度器中获取一个待爬取的暗网站点链接并将其封装成一个请求后传递给下载器;
状态管理器起到维护爬取列队的作用,可以在一台独立的服务器,也可以在爬虫的任何一台分发器。爬虫分发器,负责数据抓取、数据处理、数据存储。在其他两台服务器中进行相同的环境部署,最后在Redis服务器端启动redis服务,执行LPUSH命令同时启动三台爬虫服务器。4 实验结果分析
【参考文献】:
期刊论文
[1]基于Tor的暗网数据爬虫设计与实现[J]. 汤艳君,安俊霖. 信息安全研究. 2019(09)
[2]基于Tor的暗网空间资源探测[J]. 杨溢,郭晗,王轶骏,薛质. 通信技术. 2017(10)
[3]基于Freenet的暗网空间资源探测[J]. 郭晗,王轶骏,薛质. 通信技术. 2017(09)
[4]“暗网”应用情况及监管方法研究[J]. 赵志云,张旭,罗铮,袁卫平. 知识管理论坛. 2016(02)
[5]基于领域知识抽样的深网资源采集方法[J]. 林海伦,熊锦华,王博,程学旗. 中文信息学报. 2016(02)
硕士论文
[1]暗网数据源分类算法的研究和实现[D]. 李亚.成都理工大学 2013
本文编号:3262031
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3262031.html