基于Map/Reduce的网页消重并行算法
发布时间:2023-06-01 19:57
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。
【文章页数】:4 页
【文章目录】:
1 网页消重原理
1.1 数字指纹算法
1.2 并行消重策略
2 并行消重算法的总体流程
3 并行消重算法的Map/Reduce实现
3.1 合并过程
3.2 消重过程
3.3 更新过程
4 实验
4.1 实验结果
4.2 实验分析
5 结束语
本文编号:3826945
【文章页数】:4 页
【文章目录】:
1 网页消重原理
1.1 数字指纹算法
1.2 并行消重策略
2 并行消重算法的总体流程
3 并行消重算法的Map/Reduce实现
3.1 合并过程
3.2 消重过程
3.3 更新过程
4 实验
4.1 实验结果
4.2 实验分析
5 结束语
本文编号:3826945
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3826945.html