一种分布式网络爬虫的设计与实现
本文关键词:一种分布式网络爬虫的设计与实现 出处:《江西师范大学学报(自然科学版)》2013年04期 论文类型:期刊论文
【摘要】:利用用户指定的关键字和搜索引擎生成URL种子,通过分布式网络爬虫抽取符合用户需求的网页作为研究所用的语料.实验结果表明:分布式网络爬虫可以较好地解决在短时间内抽取大量语料的需求.
[Abstract]:......
【作者单位】: 上海交通大学计算机科学与工程系;
【基金】:国家自然科学基金(60773087)资助项目
【分类号】:TP391.3
【正文快照】: 0引言网络爬虫,英文名称为Spider或Crawler,是一种功能强大的自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分.此外,它可以完全不依赖用户干预实现网络上的自动“爬行”和“搜索".网络爬虫工作过程一般是从一个或若干个初始网页的URL开始,获得
【相似文献】
相关期刊论文 前10条
1 查伟;;分布式计算机机房管理系统设计[J];咸宁学院学报;2006年06期
2 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
3 张春兰;李元;杨涛;;分布式电子实验管理信息系统的设计与实现[J];沈阳化工学院学报;2006年04期
4 曾文;湛腾西;;网络视频爬虫系统的设计与实现[J];中国科技信息;2010年15期
5 帖军;;分布式线程池模型的设计与实现[J];中南民族大学学报(自然科学版);2007年02期
6 林郁;周传生;;基于多Agent的分布式资源检索系统的设计[J];网络与信息;2008年04期
7 孙辉霞;;基于网络的高校教务管理系统的设计与实现[J];甘肃科技纵横;2008年03期
8 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
9 薛建春;段红梅;蔡松;;定题搜索引擎的设计与实现[J];微计算机信息;2007年21期
10 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期
相关会议论文 前10条
1 张午生;辛建卉;蒋爱兵;;郑州市土地利用规划管理信息系统的设计[A];2006年中国土地学会学术年会论文集[C];2006年
2 刘权;曹艳秋;;松辽流域地理信息系统总体设计[A];2001年东北三省测绘学术与信息交流会论文集[C];2001年
3 吉s,
本文编号:1348183
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1348183.html