网站反爬取机制的研究与应用
[Abstract]:With the development of WEB technology and the diversification of application methods, more and more people begin to rely on network learning, work and life. With the advent of Web 2.0, the World wide Web has become the carrier of a large number of information, which makes the number of crawlers running in the Internet increasing day by day. These crawlers occupy the website resources, causing great harm to the website. It is necessary to find and prevent network crawlers and establish anti-crawling mechanism to avoid the harm caused by crawlers to websites. Anti-crawling mechanism is of great significance in ensuring the normal security of the website, protecting the content of the website and the privacy information of users, and doing data mining based on user access data. After expounding the principle of crawler and studying and analyzing the existing anti-crawling mechanism, this paper designs a real-time anti-crawling mechanism according to the access characteristics of crawler, and separates the anti-crawling detection from the original Web server by using the service architecture (RPC). Make full use of the environmental advantages of the original Web server and the anti-crawling server, and reduce the influence of the anti-crawling mechanism on the original WEB server. In order to improve the accuracy of crawler recognition, the dimension of Web request detection is improved and the complexity of verification logic is increased in order to improve the accuracy of crawler recognition. The experimental results show that this mechanism has good results in the field of anti-crawling and crawling recognition, and has obvious advantages over other anti-crawling mechanisms in real-time, accuracy, coverage and comprehensive evaluation index.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【参考文献】
相关期刊论文 前10条
1 邹科文;李达;邓婷敏;李嘉振;陈义明;;网络爬虫针对“反爬”网站的爬取策略研究[J];电脑知识与技术;2016年07期
2 吴晓晖;纪星;;Web爬虫检测技术综述[J];湖北汽车工业学院学报;2012年01期
3 范纯龙;袁滨;余周华;徐蕾;;基于陷阱技术的网络爬虫检测[J];计算机应用;2010年07期
4 刘庆杰;孙旭光;王小英;;通过Filter抵御网页爬虫[J];网络安全技术与应用;2010年01期
5 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期
6 张宁;;基于滑动窗口的时间序列离群数据挖掘[J];燕山大学学报;2008年06期
7 严伟;宓为建;苌道方;何军良;;一种基于最佳优先搜索算法的集装箱堆场场桥调度策略[J];中国工程机械学报;2008年01期
8 郭伟刚;鞠时光;;电子商务网站中Web Robot的检测技术[J];计算机工程;2005年23期
9 郭伟刚,鞠时光;一个基于事务分析的Web Robot检测算法[J];计算机应用;2005年07期
10 梁延华,王振兴;Web Robots安全策略研究[J];信息工程大学学报;2003年03期
相关硕士学位论文 前10条
1 林旭;基于WEB访问日志的异常检测技术研究[D];中国海洋大学;2015年
2 黄燕红;基于SVM算法的癌症基因数据分类研究[D];苏州大学;2015年
3 初光磊;SVM在数据挖掘中的应用[D];北京邮电大学;2015年
4 闫明;高可用可扩展集群化Redis设计与实现[D];西安电子科技大学;2014年
5 史珊姗;基于决策树C4.5算法的网络入侵检测研究[D];苏州大学;2012年
6 史晨超;基于滑动窗口的网上银行数据流频繁模式研究[D];复旦大学;2012年
7 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
8 余舟华;基于陷阱的spider检测评价模型研究[D];沈阳航空航天大学;2011年
9 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年
10 叶斌;分布式企业服务总线消息机制的研究与实现[D];浙江大学;2010年
,本文编号:2506337
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2506337.html