网络爬虫针对“反爬”网站的爬取策略研究
本文选题:网络爬虫 + 反爬虫机制 ; 参考:《电脑知识与技术》2016年07期
【摘要】:随着计算机技术和internet的迅猛发展,信息和知识呈现爆炸性的增长,如何获取和利用信息成为现代社会提高竞争力的重要途径,网络爬虫是达到这一途径的重要工具。该文详细阐述了网络爬虫的体系结构、工作原理和URL搜索策略,针对某些网站采用的"反爬"措施,提出了几种爬取策略,以实现网页的有效爬取。对实际网络爬虫获取信息具有重要的参考价值。
[Abstract]:With the rapid development of computer technology and internet, information and knowledge are increasing explosively. How to obtain and utilize information has become an important way to improve competitiveness in modern society, and web crawler is an important tool to achieve this approach. In this paper, the architecture, working principle and URL search strategy of web crawler are described in detail, and several crawling strategies are put forward to realize the effective crawling of web pages in view of the "back crawling" measures adopted by some websites. It has important reference value for the actual web crawler to obtain information.
【作者单位】: 湖南农业大学信息科学技术学院;湖南农业大学东方科技学院;
【基金】:湖南省大学生创新性实验与研究性学习项目:导游精灵(DFCXS201505) 湖南农业大学东方科技学院大学生创新项目:景点达人(DFCXY201406)
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 杨松梅;;网络爬虫[J];硅谷;2009年15期
相关会议论文 前5条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年
相关硕士学位论文 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
4 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
6 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
7 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
8 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
9 刘晶晶;面向微博的网络爬虫研究与实现[D];复旦大学;2012年
10 耿令宝;分布式环境下的网络爬虫系统研究与优化[D];北京邮电大学;2015年
,本文编号:1884995
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1884995.html