基于量化的近似最近邻搜索技术研究
本文关键词:基于量化的近似最近邻搜索技术研究 出处:《中国科学技术大学》2017年博士论文 论文类型:学位论文
更多相关文章: 最近邻搜索 近似最近邻搜索 量化 组合量化 近似正交的组合量化 稀疏组合量化 跨模态近似最近邻搜索 跨模态协同量化 有监督近似最近邻搜索
【摘要】:最近邻搜索是机器学习、计算机视觉和信息检索里一个重要的基础性问题。然而,在大规模高维数据环境下,给定查询点,找到其精确的最近邻需要大量的计算及存储空间。近似最近邻搜索算法由于其存储空间少、查找效率高等优点引起了人们的广泛关注。而如何快速、高效、准确地进行近似最近邻搜索是目前学术研究的一个热点和难点。一般来说,近似最近邻搜索的算法在尽可能保证其准确性的情况下主要从两个方面提高搜索速度。第一个是利用特殊的数据结构来减少查询点与数据点的比较次数;第二个是利用紧凑码来加速计算查询点与数据点之间的距离,比如通过哈希算法或量化算法将数据点映射为紧凑码。本文主要从第二个方面——基于量化的近似最近邻搜索算法——研究如何获得更优质的紧凑码来提高查找准确率和查找效率。本文主要研究内容和创新成果如下:1.针对无监督的近似最近邻搜索,本文提出一种组合量化方法。其主要思想是用若干个子中心点之和作为重构点来近似数据点,其中每个子中心点来自不同的子字典,数据点用这些子中心点在各自子字典中的索引值来表示。同时,我们引入近似正交约束条件,使得计算查询点与重构点的距离可以用查询点和这几个子中心点的距离之和来代替进而加速距离计算。与已有的量化方法的对比实验结果表明,近似正交的组合量化可以获得更高的查找准确率。2.本文提出一种稀疏组合量化算法,用以减少组合量化中创建查阅表所需的时间。大规模数据的近似最近邻搜索通常结合倒排表进一步加速搜索。而组合量化在对倒排表返回的数据点进行排序的时候,创建查阅表所需的时间变得不可忽视。针对这一问题,本文提出的稀疏组合量化方法,引入了一个稀疏条件,使得重构字典里的每一个子中心点是一个稀疏向量。其好处是,当创建查阅表需要计算查询点与子中心点的欧氏距离的时候,由于子中心点是一个稀疏向量,可以加速距离计算。在大规模数据集上的近似最近邻搜索表明,稀疏组合量化相比较于组合量化,可以获得更快的查找速度。3.本文提出基于量化的近似最近邻搜索算法用于跨模态最近邻搜索领域中。所谓跨模态最近邻搜索,指的是查询点和数据点来自不同的数据模态,例如用图像查询点去搜索相似的文本数据点,或用文本查询点去搜索相似的图像数据点。本文提出的算法只假设一幅图像和一段文本是一一对应的,而不需要已知图像和文本的类别。该算法首先将来自不同模态的一对数据映射到同一空间中,之后在这个映射后的空间对不同模态的数据通过组合量化进行近似,同时使来自不同模态的一对数据的近似表示尽可能相同。大量的实验比较表明,本文提出的算法在跨模近似态最近邻搜索中可以获得更高的查找准确率。4.针对有监督近似最近邻搜索,本文提出了一种新的量化方法。不同于无监督近似最近邻搜索,量化算法直接在数据库上进行量化,本文提出的算法是使数据点首先通过一个线性变换,之后在线性变换后的数据点上进行组合量化。其优化的目的不仅要使得量化后的近似表达能准确地代表线性变换后的数据点,同时也使得数据点在线性变换后具有类别可分离性,即相同类别的数据点在线性变换后距离很近,不同类别的数据点在线性变换后的空间内相距很远。与现有的有监督近似最近邻搜索算法的实验比较表明,本文提出的算法可以获得更高的查找准确率。综上,本文在无监督的近似最近邻搜索,跨模态的近似最近邻搜索,以及有监督的近似最近邻搜索这三个领域提出了四个新颖的算法,用于提高近似最近邻搜索的查找准确率以及查找效率。大量实验结果表明了本文提出的方法的查找结果好于已有方法的查找结果。
[Abstract]:Nearest neighbor search is machine learning, computer vision and information retrieval in a fundamental question. However, in large scale and high dimensional data environment, a query point, to find the exact nearest neighbor needs a large amount of calculation and storage space. The approximate nearest neighbor search algorithm due to its less storage space, higher search efficiency has aroused people's attention. How to fast, efficient, accurate approximate nearest neighbor search is a research hotspot and difficulty. In general, approximate nearest neighbor search algorithm in as far as possible to ensure the accuracy of the situation mainly from two aspects to improve the search speed. The first is to use data the special structure to reduce the number of comparisons with the query point data point; the second is the use of compact code to accelerate the calculation between the query point and the data points in the distance, for example by hashing or quantity The algorithm will map the data points for the compact code. This paper mainly from second aspects: quantification of the approximate nearest neighbor search algorithm, study how to obtain better quality compact codes based on to improve the search accuracy and search efficiency. In this paper, the main research contents and innovations are as follows: 1. for approximate nearest neighbor search unsupervised, is proposed in this paper. A combination of quantitative methods. The main idea is to use a number of sub center as a reconstructed point to approximate the data points, where each sub center from different sub dictionaries, data points with these sub center point in each sub dictionary index to indicate the value. At the same time, we introduce approximate orthogonal constraint condition, the the calculation and reconstruction of the distance from the query point can be used in this query point and several sub center distance and instead thereby accelerating the distance calculation. Compared with the existing methods of quantification The results show that the combination of quantitative approximate orthogonality can obtain higher search accuracy of.2. this paper presents a combination of sparse quantization algorithm is used to reduce the time required to create table combination quantification. The large-scale data approximate nearest neighbor search is usually combined with inverted list to further accelerate the search. And when the sort of quantitative combination inverted list returned by the data points, the time required to create a lookup table is not to be ignored. To solve this problem, a combination of sparse quantization method is proposed in this paper, the introduction of a sparse condition, making each sub center reconstruction dictionary is a sparse vector. Its advantage is that when creating access the table needs to calculate the query point and sub center of the Euclidean distance, the sub center is a sparse vector, can accelerate the approximate distance calculation. In a large data set of nearest neighbor search show, Compared with the combination of sparse combination quantization quantization, can obtain faster searching speed of.3. this paper puts forward the quantitative approximate nearest neighbor search algorithm for nearest neighbor search in the field of cross modal based on cross modal. The so-called nearest neighbor search, refers to the query and data points from the data modal different, such as image query point to search for text data similar, or text query point to search for similar image data. This algorithm only if an image and a text is one-to-one, but does not need to know the image and text categories. Firstly, a mapping of data from different modes in the same space, after in the mapping space on the different modes of data through the combination of quantitative approximation, and the approximation of the data from different modes of representation as much as possible the same experiments than. Show that the proposed algorithm in cross modal approximate nearest neighbor search in the state can get a higher search accuracy of.4. for supervised approximate nearest neighbor search, this paper proposes a new quantitative method. Different from unsupervised approximate nearest neighbor search, quantization algorithm directly in the database on the quantification. The proposed algorithm is the first data point by a linear transformation, after the combination of quantization in a linear transformation of data points. The purpose is not only to make the approximate expression can accurately represent the linear transformation of the quantized data points, but also makes the data points in a linear transformation of class separability. That is the same type of data points in a linear transformation was very close, different categories of data points far apart in a linear transformation space. With the existing supervised approximate nearest neighbor search algorithm than experiment Show that the proposed algorithm can obtain higher search accuracy. To sum up, based on the approximate nearest neighbor search unsupervised, cross modal approximate nearest neighbor search, and the approximate nearest neighbor search in these three areas proposed four novel supervised algorithm, used to improve the approximate nearest neighbor search search the accuracy and efficiency of searching. The experimental results show that the method proposed in this paper to find the result is better than the existing methods of search results.
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 杨秀娟;;空间对象的双色反向最近邻查询研究[J];煤炭技术;2009年06期
2 张桂榕;;反向最近邻查询研究综述[J];电脑知识与技术;2011年28期
3 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期
4 刘永山,薄树奎,张强,郝忠孝;多对象的最近邻查询[J];计算机工程;2004年11期
5 郝忠孝;刘永山;;空间对象的反最近邻查询[J];计算机科学;2005年11期
6 王淼;郝忠孝;;不确定性对象的反向最近邻查询[J];计算机工程;2010年10期
7 张旭;何向南;金澈清;周傲英;;面向不确定图的k最近邻查询[J];计算机研究与发展;2011年10期
8 杨泽雪;郝忠孝;;空间数据库中的障碍反向最近邻查询[J];计算机工程与应用;2011年34期
9 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期
10 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期
相关会议论文 前10条
1 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 管猛;张剡;柏文阳;;基于地表的连续可见最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 陈璐;高云君;柳晴;陈刚;;受限相互最近邻查询处理[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
4 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
6 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
7 刘星毅;;基于欧式距离的最近邻改进算法[A];广西计算机学会2010年学术年会论文集[C];2010年
8 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
相关博士学位论文 前9条
1 张婷;基于量化的近似最近邻搜索技术研究[D];中国科学技术大学;2017年
2 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年
3 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年
4 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年
5 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年
6 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年
7 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年
8 李艳红;路网中移动对象最近邻及反向最近邻查询处理研究[D];华中科技大学;2011年
9 魏本昌;基于内容的大规模图像检索技术研究[D];华中科技大学;2015年
相关硕士学位论文 前10条
1 杨根茂;基于哈希加速的近似最近邻检索算法研究[D];浙江大学;2015年
2 原s,
本文编号:1363393
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1363393.html