基于文档重要度的静态索引剪枝方法
发布时间:2018-05-21 04:34
本文选题:搜索引擎 + 倒排索引 ; 参考:《华南理工大学学报(自然科学版)》2011年04期
【摘要】:针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法.
[Abstract]:A static index pruning method is proposed to determine the pruning range of web pages according to the importance of web pages, which is characterized by uneven quality and great difference in importance. The method is verified on the GOV2 dataset. The experimental results show that the static index pruning can greatly reduce the storage requirement and improve the query efficiency, and the index size after pruning is 13% of the original size. Under the same pruning range, both PTP 10 and MAP are obviously better than the previous pruning methods.
【作者单位】: 北京大学信息科学技术学院;
【基金】:国家自然科学基金资助项目(60933004) 广东省计算机网络重点实验室资助项目(CCNL200601) “核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项项目(2011ZX01042-001-001)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
【共引文献】
相关期刊论文 前4条
1 冯是聪,王继民;关于“中文网页自动分类竞赛”结果的分析[J];中文信息学报;2003年05期
2 朱家稷,闫宏飞;一种Web多维分析模型及应用[J];情报学报;2004年05期
3 陈,
本文编号:1917777
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1917777.html