一种网络爬虫系统中URL去重方法的研究
本文关键词:一种网络爬虫系统中URL去重方法的研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。
【作者单位】: 北京网博视界科技有限公司;
【关键词】: 爬虫系统 URL去重
【基金】:国家科技支撑计划项目资助(项目编号:2012BAH04F04)
【分类号】:TP393.092;TP391.3
【正文快照】: 近些年来,伴随着科学技术的不断进步,互联网技术也不断发展,通过互联网这个平台传递的信息越来越多,但是想要在这浩渺烟海的信息中找到对自己有用到的信息,只有借助于搜索引擎这一网络利器,通过搜索引擎可以很容易的搜索出需要的信息,但是现今的搜索引擎还存在着一些缺陷,们需
【参考文献】
中国期刊全文数据库 前1条
1 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
7 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
8 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期
9 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期
10 张军洲;连云凯;;基于旅游博客和论坛提高旅游产品质量的模型研究[J];旅游论坛;2012年02期
中国重要会议论文全文数据库 前3条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
9 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年
10 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
2 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
3 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
4 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
5 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期
6 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
7 王星;刘李敦;;基于移动代理(Agent)的智能爬虫系统的设计和实现[J];科技资讯;2007年28期
8 赵靖华;;网络性能指标预测法指导任务分配的分布式网页信息获取技术[J];通化师范学院学报;2008年10期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期
中国重要会议论文全文数据库 前9条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
6 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
8 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前1条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
2 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
3 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
4 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
5 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
6 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
7 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
8 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
9 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
10 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年
本文关键词:一种网络爬虫系统中URL去重方法的研究,由笔耕文化传播整理发布。
,本文编号:476526
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/476526.html