高性能网络爬虫:研究综述
【部分图文】:
网络爬虫的结构主要分为以下几个部分:(1)下载模块,(2)网页分析模块,(3)URL去重模块,(4)URL分配模块,如图1所示。图1 系统架构图3.1 下载模块下载模块负责抓取网页,是整个系统的基本与关键部分,直接影响爬行效果。该模块一般包含3个子模块:(1)下载线程;(2)Host控制子模块;(3)DNS解析子模块。3.1.1 下载线程下载线程主要通过HTTP协议与Web服务器进行通信。采用socket方式下载的网络编程模型主要有同步IO、非阻塞IO、异步IO。同步IO采用每一线程对应每一连接,编程简单,且性能随着CPU个数的增加而呈线性增加,但单个CPU的扩展性差,随着连接的增多线程的切换将是一个很大的开销。非阻塞IO性能较之同步IO有一定提高,适合中等规模的网络应用。异步IO是操作系统专门为之优化的一种模式
【参考文献】
相关期刊论文 前10条
1 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
2 张三峰;吴国新;;一种面向动态异构网络的容错非对称DHT方法[J];计算机研究与发展;2007年06期
3 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期
4 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期
5 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
6 陈华,罗昶,王建勇,段晖,薛明;基于Web的百万级FTP搜索引擎的设计与实现[J];计算机应用;2000年09期
7 贺广宜,罗莉;分布式搜索引擎的设计与实现[J];计算机应用;2003年05期
8 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
9 蒋宗礼;赵钦;肖华;王蕊;;高性能并行爬行器[J];计算机工程与设计;2006年24期
10 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
【共引文献】
相关期刊论文 前10条
1 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
4 赵旭;陈肖飞;;基于Web的高校FTP搜索引擎的技术研究[J];电脑知识与技术(学术交流);2007年22期
5 周翔;;基于Websphinx网络爬虫的研究与改进[J];电脑知识与技术;2008年28期
6 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
7 彭耶萍;;个性化信息检索系统中用户兴趣模型的建立[J];电脑知识与技术;2009年20期
8 曹宇;尹刚;李翔;程荣斌;王怀民;;聚类搜索引擎研究进展浅析[J];电脑知识与技术;2011年22期
9 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
10 张智江;王志军;张尼;;一种可应用于大流量环境的双层散列算法研究[J];电信科学;2011年S1期
相关博士学位论文 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
9 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
10 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
相关硕士学位论文 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 司贺华;网络内容审计系统关键技术研究与实现[D];哈尔滨工程大学;2010年
3 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
7 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
8 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
9 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
10 刘嘉;Web结构挖掘研究[D];西安电子科技大学;2009年
【二级参考文献】
相关期刊论文 前6条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 朱俊卿;搜索引擎Google研究[J];广州大学学报(综合版);2001年11期
3 李东升,卢锡城;P2P网络中常量度数常量拥塞的DHT方法研究[J];中国科学E辑:信息科学;2004年12期
4 胡冉;关于搜索引擎的几个理论问题的综述[J];晋图学刊;2003年01期
5 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
6 许晋军,苏新宁;信息搜索引擎综述[J];计算机系统应用;1999年04期
【相似文献】
相关期刊论文 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
4 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
5 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
8 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
9 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
10 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
相关博士学位论文 前10条
1 邓云;质量可伸缩性视频编码与差错控制技术研究[D];西南交通大学;2009年
2 卢军;高性能网络存储技术研究[D];电子科技大学;2002年
3 焦宝祥;注凝成型制备高性能氧化铝一氧化锆复相陶瓷[D];南京工业大学;2004年
4 聂建华;高性能MnZn铁氧体材料的制备及机理研究[D];华中科技大学;2004年
5 王发洲;高性能轻集料混凝土研究与应用[D];武汉理工大学;2003年
6 刘仲;基于对象存储结构的可伸缩集群存储系统研究[D];国防科学技术大学;2005年
7 胡小梅;协同虚拟环境系统的可伸缩性研究[D];西北工业大学;2007年
8 门薇薇;高性能聚苯并噁嗪的合成与表征[D];山东大学;2008年
9 舒阳;高性能钢筋混凝土结构的耐久性研究[D];天津大学;2007年
10 裴志军;高性能CMOS图像传感器设计技术研究[D];天津大学;2004年
相关硕士学位论文 前10条
1 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
2 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
3 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
4 陈涛;面向网络传输的可伸缩性视频编码研究[D];武汉大学;2004年
5 周奇;可伸缩性软件构架的研究与其在.NET中的实现[D];重庆大学;2004年
6 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年
7 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
8 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
9 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
10 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
本文编号:2883169
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2883169.html