当前位置:主页 > 科技论文 > 搜索引擎论文 >

Rabin指纹去重算法在搜索引擎中的应用

发布时间:2018-03-04 18:34

  本文选题:Rabin指纹方法 切入点:搜索引擎 出处:《计算机系统应用》2015年07期  论文类型:期刊论文


【摘要】:针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度.
[Abstract]:In view of the slow search speed and large storage space of search engines in mass data, and the poor deduplication of repeated web pages, a new method based on Rabin fingerprint algorithm is proposed, which not only removes the URL addresses that are searched. The results show that the search speed can be improved effectively, the storage space can be saved, and the search accuracy can be enhanced.
【作者单位】: 四川文理学院计算机学院;
【基金】:国家档案局项目(2014-X-65)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

2 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期

3 孙有军;张大兴;;海量图片文件存储去重技术研究[J];计算机应用与软件;2014年04期

【共引文献】

相关期刊论文 前10条

1 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期

2 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期

3 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期

4 张洪斌;危胜军;;基于超图的并行信息采集系统任务划分方法[J];广西师范大学学报(自然科学版);2008年01期

5 谢垂益;钟红君;;Rabin指纹算法在重复数据检测中的应用研究[J];电脑知识与技术;2013年21期

6 张皓;王玉龙;;一种网站分析系统的设计方案[J];电信网技术;2013年10期

7 孟祥乾;叶允明;邓斌;;基于流水线负载平衡模型的并行爬虫研究[J];计算机工程;2009年02期

8 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期

9 张林才;梁正友;王红霞;;基于ProActive的P-Spider1.0改进[J];计算机工程;2010年17期

10 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期

相关会议论文 前3条

1 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

2 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

3 黄初指;;网络爬虫在电力广域网信息收集中的应用[A];2008电力行业信息化年会会议论文集[C];2008年

相关博士学位论文 前3条

1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

2 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年

3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 赵翔;网站信息按需采集系统中爬虫子系统的设计与实现[D];复旦大学;2011年

2 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年

3 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年

4 孙守兴;基于可扩展哈希算法的并行爬虫动态负载均衡实现[D];哈尔滨工业大学;2010年

5 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年

6 吴东华;Web信息获取技术研究[D];南京理工大学;2004年

7 刘宾;基于移动Agent的主题搜索引擎研究[D];上海海事大学;2006年

8 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年

9 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年

10 张维维;搜索引擎的研究与实现[D];长春理工大学;2008年

【二级参考文献】

相关期刊论文 前4条

1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

2 杨天奇;周晔;;一种增量式并行Web信息采集方法[J];计算机工程;2006年20期

3 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

4 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期

【相似文献】

相关期刊论文 前2条

1 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期

2 ;[J];;年期



本文编号:1566832

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1566832.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户71696***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com