当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络爬虫在搜索引擎应用中的问题及对策

发布时间:2017-12-17 01:06

  本文关键词:网络爬虫在搜索引擎应用中的问题及对策


  更多相关文章: 网络爬虫 数据传输 URL策略 搜索引擎


【摘要】:本文以网络爬虫的分类以及其特点出发,探讨了当前网络爬虫在搜索引擎应用中的问题,比如搜索URL定位过程中的数据下载效率较低,出现下载过程中的CPU闲置,URL搜索策略不合理导致了URL重复等问题,并以此为依托,提出了相关策略,包括在数据传输过程中采用gzip/deflate压缩编码传输,异步非阻塞下载,提升CPU利用率以及规范化URL提取策略等,以此来提升网络爬虫在搜索引擎中的效率.
【作者单位】: 集宁师范学院;
【分类号】:TP391.3
【正文快照】: 1引言在谈网络爬虫之前,先了解电脑“机器人”,电脑机器人,其本质软件程序,该程序以计算机,网络为依托,无限循环的地执行网络任务.如以网络为依托的搜索引擎程序,在收集信息时,它就像一条爬虫穿梭在网络之中,根据用户所提供的关键字信息,自动筛选重要信息,我们将专门用于搜索

【参考文献】

中国期刊全文数据库 前6条

1 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

2 周巍巍;;网络爬虫网页库智能更新策略分析与研究[J];电脑知识与技术;2010年31期

3 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期

4 石柯;周利兵;陶文兵;;基于移动代理的MAISE爬虫的设计与实现[J];华中科技大学学报(自然科学版);2005年S1期

5 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

6 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

【共引文献】

中国期刊全文数据库 前9条

1 王春梅;;基于Bloom Filter的网络爬虫URL消重算法研究[J];产业与科技论坛;2011年18期

2 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

3 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期

4 刘晨鸣;冯海亮;李小兰;;一种基于协议的互联网音视频识别方法[J];广播电视信息;2009年12期

5 胡蓉;刘建勋;;Web服务搜索引擎的WSRank方法研究[J];计算机工程与科学;2011年04期

6 王莉;;基于ASP.NET搜索引擎模型的实现[J];计算机与现代化;2011年11期

7 王沐心;;门户网站保密检查系统[J];计算机与现代化;2013年10期

8 黄辉;冯欣艳;;搜索引擎流量模型分析与测试[J];现代计算机(专业版);2012年04期

9 王杰;赵传杰;黄华勇;;知识视角下击剑训练比赛决策支持系统构建及应用[J];中国体育科技;2013年03期

中国重要会议论文全文数据库 前2条

1 冯细光;刘建勋;;开放Web服务测试平台的设计与实现[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

中国硕士学位论文全文数据库 前10条

1 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年

2 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年

3 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年

4 王国才;基于本体的微内容聚合与查询技术[D];合肥工业大学;2009年

5 邓岳贵;基于非常快速退火搜索算法的主题爬虫研究与实现[D];江西理工大学;2009年

6 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年

7 陈再兴;全功能检索系统搜索引擎设计[D];湖北工业大学;2009年

8 斯鹏;网站内容安全管理平台的设计与实现[D];北京交通大学;2010年

9 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年

10 陈丽萍;校园BBS舆情数据收集与提取系统的设计与实现[D];华中科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 沈文勤,李庆超,邵志清;搜索引擎的渐增式爬行和备份式更新模式[J];华东理工大学学报;2004年03期

2 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期

3 朱淼良,邱瑜;移动代理系统综述[J];计算机研究与发展;2001年01期

4 张冠群,陶先平,李新,冯新宇,吕建;Mogent系统迁移机制的设计和实现[J];计算机研究与发展;2001年09期

5 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期

6 刘锦德,张云勇;一个实用的移动Agent系统(Aglet)的综述[J];计算机应用;2001年S1期

7 刘畅,张辉;一种应用于搜索引擎的索引结构研究[J];计算机与数字工程;2005年09期

8 吕韩飞,王申康;一种重要性与时新性结合的网页更新策略[J];计算机应用研究;2005年11期

9 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

10 蒋宗礼;赵钦;肖华;王蕊;;高性能并行爬行器[J];计算机工程与设计;2006年24期

【相似文献】

中国期刊全文数据库 前10条

1 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

2 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

3 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

4 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

5 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

6 王星;刘李敦;;基于移动代理(Agent)的智能爬虫系统的设计和实现[J];科技资讯;2007年28期

7 赵靖华;;网络性能指标预测法指导任务分配的分布式网页信息获取技术[J];通化师范学院学报;2008年10期

8 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

9 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期

10 曾文;湛腾西;;网络视频爬虫系统的设计与实现[J];中国科技信息;2010年15期

中国重要会议论文全文数据库 前10条

1 陈海生;;浅析XML技术在网络信息交换中的应用[A];2006年全国LED显示技术应用及产业发展研讨会论文集[C];2006年

2 韦振锦;方华;成春艳;;三层结构在医保数据传输中的应用[A];广西计算机学会2007年年会论文集[C];2007年

3 陆宝华;王晓宇;;用户数据应分属性保护[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

4 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

5 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

6 齐洪方;;协同设计中的应用共享技术研究[A];2009年促进中部崛起专家论坛暨第五届湖北科技论坛——装备制造产业发展论坛论文集(上)[C];2009年

7 吴兵;朱学明;;Zeiss电子水准仪DINI12的应用心得及其应用程序的开发[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年

8 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

9 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

中国重要报纸全文数据库 前10条

1 ;东方通天津高速公路联网收费系统[N];计算机世界;2006年

2 信息工程大学测绘学院 陈波;数字水利 3S来支撑[N];中国计算机报;2005年

3 乐天邋编译;SaaS适用于中小企业吗?[N];计算机世界;2008年

4 本报记者  侯继勇;西安外包光缆直通美国[N];21世纪经济报道;2006年

5 杨国燕;“优”胜劣败[N];网络世界;2006年

6 张戈;当方案商遇到RFID[N];电脑商报;2008年

7 陈学桦;6000万美元[N];河南日报;2007年

8 Spectra Logic公司;安全高效的可移动存储介质数据加密技术[N];中国计算机报;2007年

9 《计算机世界》方案评析实验室;SOA解决方案横向评述[N];计算机世界;2006年

10 本报记者 叶健;从信息中提炼企业竞争力[N];辽宁日报;2007年

中国博士学位论文全文数据库 前5条

1 刘瑰;面向海量信息处理领域的数据网格及其关键技术研究[D];解放军信息工程大学;2009年

2 王总辉;高可扩分布式交互仿真支撑平台的研究和实现[D];浙江大学;2007年

3 王卫亚;基于无线传感网络的高速公路恶劣气象监测及交通控制模型研究[D];长安大学;2008年

4 闫伟国;网络化制造模式下DNC关键技术研究[D];大连理工大学;2003年

5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

中国硕士学位论文全文数据库 前10条

1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

2 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年

3 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

4 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

5 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年

6 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年

7 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年

8 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

9 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年

10 谭宗英;物联网石油测井数据传输与控制系统设计[D];西安电子科技大学;2011年



本文编号:1298146

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1298146.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf78a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com