航空订票服务器爬虫检测技术研究
发布时间:2021-03-19 18:01
网络爬虫是一种自动化浏览网页和抓取网页数据的程序,是多种网络应用的关键技术,如搜索引擎依赖于爬虫获取网页中的信息。但随着网络爬虫技术的发展,一些恶意爬虫对电子商务造成了不可忽视的损失,它们占据网络带宽,触碰用户隐私,窃取商业信息等。在航空订票系统网络爬虫的危害更甚,因此本文设计了一套针对航空查订票系统的反爬虫可视交互系统,协助用户通过分析大规模且动态变化的IP日志数据来检测爬虫。本文系统采用反爬虫模型离线计算,爬虫实时在线检测的运行方式。使用历史日志数据建立反爬虫模型,再利用此模型对实时的访问日志进行分析,判断当前的访问是否为爬虫。同时可以定期进行离线模型的再学习和更新,以适应新型爬虫。本系统利用Redis缓存技术处理航空票务网站等其他电商平台的高并发请求来保证实时爬虫检测响应。本文设计的可视化界面提供了航线图、柱状图、饼图等多种可视化手段,方便用户随时查看历史和实时的查订票状况和爬虫检测效果。同时以IP地址聚合和查询量排序模块协助用户分析和识别动态IP爬虫,以特征筛选、IP历史详情查询等可视化模块支持用户手工筛选训练样本来更新SVM分类模型。本文创新点有:开发了E-build服务器端...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
015第1季度至2016第4季度中国在线机票预订交易规模,数据来源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中国航信为航空公司提供的电子商务统一接入和应用开发平的接入层为航空公司提供多种方式的电子商务应用服务,包括了航旅客订座记录等。E-Build 积累了大量的代理订票历史数据,即 IP据,并可以对代理订票行为进行实时数据监控。在 E-Build 服务器监控与检测,通过历史数据与实时数据结合分析,开发设计反爬虫和研究价值。空公司网站如需提取航班时刻、座位信息和票价详情,其每次查询航信 E-Build 服务器发起请求,并向中航信支付相应流量费。许多了免费获取低价机票数据与航班信息,通过大量爬虫访问航空公司据,从而导致航空公司访问 E-Build 服务器的流量费剧增。根据航全统计,即使在航空机票销售的淡季,虚假流量也占据航空网站实,高峰期更是高达 90%以上,而这些爬虫只消耗流量却不产生任也有些航空公司在自己网站上布置了反爬虫系统,但各自为政,开爬虫效果一般。本文希望开发一个在 E-build 端的通用爬虫检测系的航空公司反爬虫需要,如图 1.2 所示。
图为用户相同会话中的查询时间间隔与查询量的关系,下图为用时间间隔与查询量关系器学习方法,使用机器学习模型来判断访问是否来自爬网络[12-13],贝叶斯分类器[14-15],决策树[16-17],SVM[18-19],。D Stevanovic[13]等研究了两种无监督神经网络用于网映射 SOM 与改进的自适应共振理论 ATR2,旨在根据用网络访问者的类型与分布情况,以及调查恶意爬虫与用户把数据集的聚类结果映射到 SOM 输出层上,帮助用户了规模、空间邻近度和数据集最主要的集群,如图 1.4。S叶斯方法的两个变种:弱贝叶斯方法(WBA)与强贝叶斯络机器人会话集合去训练分类模型用于网络爬虫检测。对实时的会话请求进行分类,使用该方法来区分人类与通过有监督机器学习来识别和检测垃圾邮件网络爬虫,述垃圾邮件爬虫与人类用户的不同行为特征。Lu[20]等使
【参考文献】:
期刊论文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文编号:3089984
【文章来源】:杭州电子科技大学浙江省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
015第1季度至2016第4季度中国在线机票预订交易规模,数据来源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中国航信为航空公司提供的电子商务统一接入和应用开发平的接入层为航空公司提供多种方式的电子商务应用服务,包括了航旅客订座记录等。E-Build 积累了大量的代理订票历史数据,即 IP据,并可以对代理订票行为进行实时数据监控。在 E-Build 服务器监控与检测,通过历史数据与实时数据结合分析,开发设计反爬虫和研究价值。空公司网站如需提取航班时刻、座位信息和票价详情,其每次查询航信 E-Build 服务器发起请求,并向中航信支付相应流量费。许多了免费获取低价机票数据与航班信息,通过大量爬虫访问航空公司据,从而导致航空公司访问 E-Build 服务器的流量费剧增。根据航全统计,即使在航空机票销售的淡季,虚假流量也占据航空网站实,高峰期更是高达 90%以上,而这些爬虫只消耗流量却不产生任也有些航空公司在自己网站上布置了反爬虫系统,但各自为政,开爬虫效果一般。本文希望开发一个在 E-build 端的通用爬虫检测系的航空公司反爬虫需要,如图 1.2 所示。
图为用户相同会话中的查询时间间隔与查询量的关系,下图为用时间间隔与查询量关系器学习方法,使用机器学习模型来判断访问是否来自爬网络[12-13],贝叶斯分类器[14-15],决策树[16-17],SVM[18-19],。D Stevanovic[13]等研究了两种无监督神经网络用于网映射 SOM 与改进的自适应共振理论 ATR2,旨在根据用网络访问者的类型与分布情况,以及调查恶意爬虫与用户把数据集的聚类结果映射到 SOM 输出层上,帮助用户了规模、空间邻近度和数据集最主要的集群,如图 1.4。S叶斯方法的两个变种:弱贝叶斯方法(WBA)与强贝叶斯络机器人会话集合去训练分类模型用于网络爬虫检测。对实时的会话请求进行分类,使用该方法来区分人类与通过有监督机器学习来识别和检测垃圾邮件网络爬虫,述垃圾邮件爬虫与人类用户的不同行为特征。Lu[20]等使
【参考文献】:
期刊论文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文编号:3089984
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3089984.html