新型分布式Web Spider的设计
发布时间:2018-05-23 07:41
本文选题:中央控制节点 + 宽度优先搜索 ; 参考:《计算机工程与应用》2011年16期
【摘要】:针对日益突出的网页访问问题,设计了一种新型分布式WebSpider。该分布式WebSpider采用中央控制节点来协调各个webspider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问webserver的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入webspider节点和子中央控制节点,具有很强的灵活性和扩张能力。实验结果表明该分布式WebSpider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能。
[Abstract]:In view of the increasingly prominent web page access problem, a new distributed WebSpider. is designed, which uses central control nodes to coordinate the behavior of each webspider, and uses breadth first search to obtain high quality web pages. By caching DNS, the speed of accessing webserver is improved to increase the number of parallel threads. In order to increase the speed of web page downloading and dynamically add webspider and sub central control nodes, it has a strong flexibility and expansion ability. The experimental results show that the distributed WebSpider is the front end of the search engine to download web pages quickly and effectively, and has good sexual ability.
【作者单位】: 四川理工学院计算机学院;
【基金】:四川省科技厅重点项目(No.2009JY0136) 四川省教育厅科研基金项目(No.09ZC114);四川省教育厅青年基金项目(No.07ZB049)
【分类号】:TP393.092
【二级参考文献】
相关期刊论文 前1条
1 姜誉,方滨兴,胡铭曾,何仁清;大型ISP网络拓扑多点测量及其特征分析实例[J];软件学报;2005年05期
【相似文献】
相关会议论文 前1条
1 丁国栋;王斌;;基于网站链接关系的中国境内WEB图结构研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
相关硕士学位论文 前2条
1 顾广聚;网络入侵源主动追踪机制研究[D];吉林大学;2007年
2 任彬;一种特定领域的语义网模型[D];吉林大学;2004年
,本文编号:1923858
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1923858.html