当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络爬虫的优化策略探略

发布时间:2019-01-19 16:56
【摘要】:网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。
[Abstract]:The crawler's strategy of web page capture and optimization has a direct impact on the breadth and depth of web page collection, the quantity of web page preprocessing and the quality of search engine. The design of search engine should not only fully consider the strategy of web page traversal, but also strengthen the research of web crawler optimization strategy. In this paper, five optimization strategies of web crawler are put forward from the aspects of theme, priority collection, non-repetition collection, page revisiting and distributed crawling, which can guide and enlighten the design of web crawler.
【作者单位】: 华南师范大学经济与管理学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前8条

1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

2 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期

3 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

5 姚树宇,赵少东;一种使用分布式技术的搜索引擎[J];计算机应用与软件;2005年10期

6 杨贞;杜习英;;基于本体的主题爬虫的设计与实现[J];科技情报开发与经济;2008年02期

7 王冬;雷景生;李壮;;基于PageRank的页面排序改进算法[J];计算机工程与设计;2008年22期

8 郭鸿;;一种基于文本内容的HITS改进算法[J];计算机系统应用;2009年09期

相关博士学位论文 前1条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

【共引文献】

相关期刊论文 前10条

1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期

2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

5 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

7 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

8 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期

9 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期

10 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期

相关会议论文 前6条

1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年

6 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年

相关博士学位论文 前10条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

6 王文成;基于局部特征分析的人脸表情识别问题研究[D];山东大学;2011年

7 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

8 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

9 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

10 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

相关硕士学位论文 前10条

1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年

2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

5 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

6 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

7 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

8 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

9 张卓;基于分层需求的领域本体构建及语义标注方法研究[D];东北财经大学;2010年

10 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年

【二级参考文献】

相关期刊论文 前10条

1 燕辉,叶震,董泽浩,高柯俊;报文摘要算法MD5分析[J];合肥工业大学学报(自然科学版);2002年01期

2 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期

3 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期

4 张三峰;吴国新;;一种面向动态异构网络的容错非对称DHT方法[J];计算机研究与发展;2007年06期

5 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期

6 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期

7 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期

8 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期

9 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

10 肖诗源,叶俊,刘贤德;一种基于Agent的分布式搜索引擎[J];计算机工程;2002年07期

相关博士学位论文 前1条

1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

【相似文献】

相关期刊论文 前10条

1 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

2 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期

3 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

4 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

5 费巍;;浅议搜索引擎优化[J];图书馆理论与实践;2008年03期

6 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

7 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期

8 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期

9 石柯;周利兵;陶文兵;;基于移动代理的MAISE爬虫的设计与实现[J];华中科技大学学报(自然科学版);2005年S1期

10 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

相关会议论文 前10条

1 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

7 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

9 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年

10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

相关硕士学位论文 前10条

1 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年

2 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年

3 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年

4 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年

5 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年

6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

7 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年

8 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年

9 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年

10 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年



本文编号:2411556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2411556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f22c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com