一种高性能分布式Web Crawler的设计与实现
[Abstract]:This paper introduces the design and Java implementation of a large scale, high performance and distributed Web information collector. A new design idea of data structure, system function module and related algorithm in Crawler design is put forward. This paper discusses the key problems in the process of design and implementation, such as distributed coordination mechanism, memory based URL storage management, and provides the current design, implementation method and distributed lossless link analysis algorithm.
【作者单位】: 上海交通大学计算机科学与工程系 上海交通大学计算机科学与工程系 上海交通大学计算机科学与工程系 上海交通大学计算机科学与工程系 上海交通大学计算机科学与工程系
【基金】:上海市科委重点基础研究项目(02DJ14045)
【分类号】:TP393.09
【共引文献】
相关期刊论文 前2条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期
相关会议论文 前3条
1 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关博士学位论文 前4条
1 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
2 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
2 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
3 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年
4 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
5 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
6 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
7 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年
8 周晔;一种增量式并行Web信息采集系统[D];暨南大学;2005年
9 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年
10 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
【相似文献】
相关会议论文 前1条
1 ;A Framework of Deep Web Crawler[A];第二十七届中国控制会议论文集[C];2008年
相关重要报纸文章 前3条
1 福建 陈旭波;两招解决站内搜索[N];电脑报;2002年
2 严河;插件的制作[N];电脑报;2003年
3 飘零雪;MSN Messenger深度历险[N];中国电脑教育报;2004年
相关硕士学位论文 前7条
1 周思思;基于隐马尔科夫模型的网络舆情挖掘[D];中南林业科技大学;2012年
2 毕成功;互联网视频资源的快速发现与热点追踪技术[D];哈尔滨工业大学;2010年
3 艾巍;DHT网络的测量与分析[D];电子科技大学;2011年
4 杜言琦;面向论坛页面的增量搜集技术研究[D];山东大学;2010年
5 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年
6 张志潇;面向领域的Deep Web的增量爬取[D];山东大学;2012年
7 乔峰;基于模板化网络爬虫技术的Web网页信息抽取[D];电子科技大学;2012年
,本文编号:2317736
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2317736.html