当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Bloom Filter算法的URL去重算法研究及其应用

发布时间:2021-06-13 05:48
  随着互联网技术的快速发展,各种各样的网络信息也呈指数级增长,海量而复杂的网络信息给人们提供更多可用数据的同时,有效的信息检索难度也越来越大。在这种情况下,我们就需要一个信息检索工具来进行有效信息的检索,那就是搜索引擎。网络爬虫作为搜索引擎中的核心技术,为用户的信息检索提供了很大便利。本文的主要研究内容就是关于网络爬虫相关技术。网络爬虫系统根据初始种子URL,获取网页中的下层链接并放入待爬取URL列表,逐层进行直至到达系统设置最大层级或者到达最终所需信息所在页面,然后对该页面进行解析,最终获取到页面中用户所需信息。在爬虫获取网页数据过程中,各个层级中获取到的URL链接可能存在大量的重复,比如根据图书分类页爬取某个网站图书的信息时,同一本图书很可能会有多个分类标签,当对不同标签下的图书进行爬取时,就可能出现多次爬取到同一本图书的情况,这就导致了在执行过程中系统需要重复获取和解析相同页面,从而造成了时间以及存储空间的很大浪费。另外我们熟悉的单线程模式的数据处理方式在在进行URL处理时比较耗时,导致系统执行效率较低。针对上述问题,本文从提高爬虫系统检索效率和准确率的角度出发主要做了以下工作:1... 

【文章来源】:河南大学河南省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于Bloom Filter算法的URL去重算法研究及其应用


网络爬虫系统图

模块图,搜索引擎,网络爬虫,蜘蛛


上的其它相关网页,就需要通过网页中包含的超连接信息获取。这样的数据采集过程就像一个爬虫或者蜘蛛在蜘蛛数据获取方式被称为网络爬虫系统或者网络蜘蛛系统,在wler。图 2-1 网络爬虫系统图

基本流程图,网页信息,网页,链接


初始网页 URL 链接,然后对初始链接 URL 所指向的网页内容进行分析,确定该层级所需要的网页信息。然后根据上述过程制定相关爬取策略获取网页信息,逐级进行上述过程,直至到达最终数据所在层,获取到最终所需数据并对数据进行保存,以备爬取到的数据的后续使用。网络爬虫系统获取网页数据过程如下图 2-3 所示。

【参考文献】:
期刊论文
[1]基于XML文档中XPath查询与结构研究[J]. 陈琛.  电子技术与软件工程. 2015(14)
[2]基于Tika和Lucene的桌面搜索引擎研究与实现[J]. 王旭仁,郑秋辉,何发镁,李娜,王彦丽.  计算机工程与设计. 2014(01)
[3]大数据管理:概念、技术与挑战[J]. 孟小峰,慈祥.  计算机研究与发展. 2013(01)
[4]基于HTMLParser和HttpClient的网络爬虫原理与实现[J]. 张亮.  电脑编程技巧与维护. 2011(20)
[5]Nutch分布式网络爬虫研究与优化[J]. 詹恒飞,杨岳湘,方宏.  计算机科学与探索. 2011(01)
[6]基于Struts+Spring+log4j框架的日志管理[J]. 陈兀,程耕国.  软件导刊. 2010(05)
[7]广域网分布式Web爬虫[J]. 许笑,张伟哲,张宏莉,方滨兴.  软件学报. 2010(05)
[8]HTMLParser提取网页超链接研究[J]. 郎凤举.  电脑编程技巧与维护. 2010(02)
[9]Web搜索引擎技术综述[J]. 宋春阳,金可音.  现代计算机(专业版). 2008(05)
[10]简单分布式网络爬虫模型的设计与分析[J]. 王凤红.  中国现代教育装备. 2008(04)

博士论文
[1]分布式信息检索中的若干重要问题研究[D]. 何川.北京邮电大学 2012

硕士论文
[1]主题网络爬虫关键技术研究[D]. 马进.湖南工业大学 2018
[2]主题网络爬虫的并行化研究与设计[D]. 王锦阳.西南石油大学 2017
[3]基于网页分块的主题爬虫技术研究[D]. 周雪.山东师范大学 2017
[4]基于Hadoop的分布式网络爬虫系统的设计与实现[D]. 薛超.郑州大学 2016
[5]基于Bloom Filter的云存储文件去重方法研究与优化[D]. 林芙楠.华南理工大学 2016
[6]基于Lucene和Heritrix的小型主题搜索引擎的研究及实现[D]. 顾盛.西安电子科技大学 2015
[7]基于hadoop的分布式网络爬虫研究与实现[D]. 万涛.西安电子科技大学 2014
[8]面向垂直搜索引擎的主题爬虫方法研究[D]. 王良伟.重庆大学 2013
[9]网络爬虫系统的研究与实现[D]. 赵茉莉.电子科技大学 2013
[10]基于布隆过滤器算法的网页消重技术的实现与应用[D]. 王征.北京交通大学 2010



本文编号:3227123

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3227123.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72db5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com