当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分层索引的高维数据对象检索

发布时间:2021-01-20 07:12
  随着海量信息检索技术的发展,对文本、图片和视频等高维数据对象的相似性检索要求不断提高。局部敏感哈希(LSH)是解决高维数据近邻检索的主要方法之一,但存在索引存储代价高及查询效率低等问题。提出了一种基于二级混合索引模型构造方法,先利用溢出树(Spill tree)对数据集进行划分,再对每个部分构建基于LSH的哈希表,形成混合索引,支撑高维数据检索。试验表明,该方法缩小了高维数据对象的索引存储空间,提高了查询效率和查询质量。 

【文章来源】:指挥信息系统与技术. 2019,10(06)

【文章页数】:5 页

【部分图文】:

基于分层索引的高维数据对象检索


LSS tree算法分层索引结构

关系曲线,半径,关系曲线,查准率


图2(c)中,若查询半径r取值较大,则易于找到满足条件的k个近邻点,但是会牺牲查询质量;反之,若查询半径r取值较小,则需耗费更多时间进行检索,影响查询效率。除了查询时间指标外,对算法性能评估还需考虑查询质量指标。暴力搜索属于精确查询,而Spill tree算法在叶节点同样采用暴力搜索,只要划分的数据点中有k个点置于该叶节点,即可精确满足近邻查询,因此本文不对暴力搜索和Spill tree算法进行比较分析。本文仅对LSB和LSS tree 2种算法在不同k值情况下的查准率Ratio进行对比,其对比结果如表1所示。可见,k值选择对查准率有一定影响,这是由于LSH算法存在一定的随机性,而LSB和LSS算法均基于LSH算法,因此k值上升会导致查准率Ratio下降。LSB和LSS算法的查准率较接近,均达到了较高水平。在查准率接近情况下,由于LSS算法的查询消耗时间较短,因此LSS算法的性能相比其他算法有显著提升。

【参考文献】:
期刊论文
[1]基于搜索引擎日志的用户查询意图分类[J]. 杨杰,徐越,余建桥,蒋建华.  指挥信息系统与技术. 2019(02)
[2]一种基于主成分的多表图像哈希检索方法[J]. 邓清文,林志贤,郭太良.  计算机工程与应用. 2018(03)
[3]一种基于LSH面向二元混合类型数据的相似性查询方法[J]. 朱命冬,申德荣,寇月,聂铁铮,于戈.  计算机学报. 2018(08)

硕士论文
[1]基于位置敏感哈希的近似kNN查询算法研究[D]. 邱文明.大连理工大学 2014



本文编号:2988624

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2988624.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ba66c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com