一种基于特征向量的改进DSC网页去重算法
发布时间:2023-04-05 12:03
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。
【文章页数】:4 页
本文编号:3783379
【文章页数】:4 页
本文编号:3783379
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3783379.html