当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Map/Reduce的网页消重并行算法

发布时间:2023-06-01 19:57
  网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。

【文章页数】:4 页

【文章目录】:
1 网页消重原理
    1.1 数字指纹算法
    1.2 并行消重策略
2 并行消重算法的总体流程
3 并行消重算法的Map/Reduce实现
    3.1 合并过程
    3.2 消重过程
    3.3 更新过程
4 实验
    4.1 实验结果
    4.2 实验分析
5 结束语



本文编号:3826945

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3826945.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8b62***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com