当前位置:主页 > 科技论文 > 搜索引擎论文 >

网页抓取中爬虫控制器的研究分析

发布时间:2017-09-07 07:22

  本文关键词:网页抓取中爬虫控制器的研究分析


  更多相关文章: 爬虫控制器 队列管理 线程 索引


【摘要】:随着互联网的日益壮大,网页抓取技术飞速发展。网页抓取已成为人们在浩瀚的网络世界中获取信息必不可少的工具,如何有效进行网页抓取成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了爬虫控制器和工作原理,并讨论了爬虫控制器的URL队列管理、页面抓取线程、索引队列管理等的抓取策略,并对其未来发展趋势进行了展望。
【作者单位】: 中移全通系统集成有限公司;
【关键词】爬虫控制器 队列管理 线程 索引
【分类号】:TP391.3;TP393.092
【正文快照】: 爬虫控制器是把网页抓取和网页分析用多线程的方式执行,并管理多线程之间的数据共享和通信;加上索引相关模块,爬虫控制器大致可以分为4个部分:(1)统一资源定位符(Uniform Resource Locator,URL)队列管理;(2)页面抓取线程;(3)索引队列管理;(4)索引线程。其中两个队列管理需要处

【相似文献】

中国期刊全文数据库 前4条

1 王泽贤;;网络书目信息抓取系统的设计与实现[J];图书馆学研究;2010年23期

2 陈晓军;;网上素材轻松保存[J];电脑爱好者;2012年13期

3 宋远君;赵铭远;马静;;基于本体的无人机情报获取与分析系统研究[J];计算机科学;2012年S3期

4 ;[J];;年期

中国硕士学位论文全文数据库 前2条

1 谢治军;垂直搜索引擎的主题网页抓取策略研究[D];重庆理工大学;2012年

2 金斯特;基于Web挖掘的主题搜索引擎网页抓取策略的研究[D];浙江工业大学;2014年



本文编号:808175

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/808175.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83bbc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com