倒排链表多层自索引结构的分析与设计
发布时间:2018-04-18 09:25
本文选题:搜索引擎 + 倒排索引 ; 参考:《计算机应用研究》2017年02期
【摘要】:在大型搜索引擎的查询处理过程中,对索引文件的顺序遍历将导致响应时间过长,自索引结构能够有效解决上述问题。为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引;在此基础上,实现了索引压缩与查询系统。基于TREC GOV2数据集的测试结果表明,该系统的各项性能指标均优于不采用自索引结构的查询系统,在不影响结果精度的情况下使检索效率得到大幅提升。
[Abstract]:In the process of query processing of large search engines, the order traversal of index files will lead to a long response time, and the self-index structure can effectively solve the above problems.In order to further shorten the query time, the multi-layer self-index structure of inverted linked list is designed by analyzing the self-index structure of the current index file.This structure takes fixed length tuple as the unit and uses iterative method to extract the synchronization point of data segment to form the upper layer self-index. On this basis the index compression and query system is implemented.The test results based on TREC GOV2 dataset show that the performance of the system is better than that of the query system without self-index structure, and the retrieval efficiency is greatly improved without affecting the precision of the results.
【作者单位】: 国防科学技术大学计算机学院;西安交通大学电信学院;国防科学技术大学信息中心;
【基金】:湖南省自然科学基金资助项目(2016JJ2007)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 Kun JIANG;Yue-xiang YANG;;Efficient dynamic pruning on largest scores first (LSF) retrieval[J];Frontiers of Information Technology & Electronic Engineering;2016年01期
2 刘小珠;彭智勇;陈旭;;高效的随机访问分块倒排文件自索引技术[J];计算机学报;2010年06期
相关博士学位论文 前1条
1 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年
【共引文献】
相关期刊论文 前10条
1 田海龙;缪新颖;;搜索引擎分块索引技术研究[J];电脑编程技巧与维护;2017年11期
2 江宇;姜琨;宋省身;杨岳湘;;倒排链表多层自索引结构的分析与设计[J];计算机应用研究;2017年02期
3 马e,
本文编号:1767770
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1767770.html