当前位置:主页 > 管理论文 > 移动网络论文 >

网站反爬取机制的研究与应用

发布时间:2019-06-26 17:12
【摘要】:随着WEB技术的发展和应用方式的多样化,越来越多的人们开始依靠网络学习、工作和生活。Web2.0的到来,万维网成为大量信息的载体,这使得互联网中运行的爬虫日益增加。这些爬虫占用网站资源,对网站造成很大的危害。发现和防范网络爬虫,建立反爬取机制是规避爬虫对网站所带来的危害的应有做法。反爬取机制在保障网站的正常安全的提供访问服务,保护网站内容以及用户隐私信息,以及在做基于用户访问数据的数据挖掘都是有着重要的意义。本文在阐述了爬虫原理和研究分析了现有的反爬取机制后,针对爬虫的访问特征,设计了一个实时的反爬取机制,采用服务化架构(RPC)的方式,将反爬取检测和原有Web服务器分开。充分利用原有Web服务器和反爬取服务器的环境优势,减少反爬取机制对原WEB服务器的影响。在识别爬虫时提高Web请求检测的维度,增加校验逻辑的复杂程度,以此方式来提高爬虫识别的准确率。实验表明,本机制在反爬取领域和爬虫识别领域中具有较好的效果,相对于其他的反爬取机制在实时性、准确率、覆盖率、综合评价指标上均有较为明显的优势。
[Abstract]:With the development of WEB technology and the diversification of application methods, more and more people begin to rely on network learning, work and life. With the advent of Web 2.0, the World wide Web has become the carrier of a large number of information, which makes the number of crawlers running in the Internet increasing day by day. These crawlers occupy the website resources, causing great harm to the website. It is necessary to find and prevent network crawlers and establish anti-crawling mechanism to avoid the harm caused by crawlers to websites. Anti-crawling mechanism is of great significance in ensuring the normal security of the website, protecting the content of the website and the privacy information of users, and doing data mining based on user access data. After expounding the principle of crawler and studying and analyzing the existing anti-crawling mechanism, this paper designs a real-time anti-crawling mechanism according to the access characteristics of crawler, and separates the anti-crawling detection from the original Web server by using the service architecture (RPC). Make full use of the environmental advantages of the original Web server and the anti-crawling server, and reduce the influence of the anti-crawling mechanism on the original WEB server. In order to improve the accuracy of crawler recognition, the dimension of Web request detection is improved and the complexity of verification logic is increased in order to improve the accuracy of crawler recognition. The experimental results show that this mechanism has good results in the field of anti-crawling and crawling recognition, and has obvious advantages over other anti-crawling mechanisms in real-time, accuracy, coverage and comprehensive evaluation index.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【参考文献】

相关期刊论文 前10条

1 邹科文;李达;邓婷敏;李嘉振;陈义明;;网络爬虫针对“反爬”网站的爬取策略研究[J];电脑知识与技术;2016年07期

2 吴晓晖;纪星;;Web爬虫检测技术综述[J];湖北汽车工业学院学报;2012年01期

3 范纯龙;袁滨;余周华;徐蕾;;基于陷阱技术的网络爬虫检测[J];计算机应用;2010年07期

4 刘庆杰;孙旭光;王小英;;通过Filter抵御网页爬虫[J];网络安全技术与应用;2010年01期

5 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期

6 张宁;;基于滑动窗口的时间序列离群数据挖掘[J];燕山大学学报;2008年06期

7 严伟;宓为建;苌道方;何军良;;一种基于最佳优先搜索算法的集装箱堆场场桥调度策略[J];中国工程机械学报;2008年01期

8 郭伟刚;鞠时光;;电子商务网站中Web Robot的检测技术[J];计算机工程;2005年23期

9 郭伟刚,鞠时光;一个基于事务分析的Web Robot检测算法[J];计算机应用;2005年07期

10 梁延华,王振兴;Web Robots安全策略研究[J];信息工程大学学报;2003年03期

相关硕士学位论文 前10条

1 林旭;基于WEB访问日志的异常检测技术研究[D];中国海洋大学;2015年

2 黄燕红;基于SVM算法的癌症基因数据分类研究[D];苏州大学;2015年

3 初光磊;SVM在数据挖掘中的应用[D];北京邮电大学;2015年

4 闫明;高可用可扩展集群化Redis设计与实现[D];西安电子科技大学;2014年

5 史珊姗;基于决策树C4.5算法的网络入侵检测研究[D];苏州大学;2012年

6 史晨超;基于滑动窗口的网上银行数据流频繁模式研究[D];复旦大学;2012年

7 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年

8 余舟华;基于陷阱的spider检测评价模型研究[D];沈阳航空航天大学;2011年

9 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年

10 叶斌;分布式企业服务总线消息机制的研究与实现[D];浙江大学;2010年



本文编号:2506337

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2506337.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98d2d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com