当前位置:主页 > 科技论文 > 软件论文 >

基于堆叠乘积量化的最近邻检索

发布时间:2018-07-24 22:03
【摘要】:近年来,大数据、人工智能和物联网技术得到飞速的发展,图像、视频等高维数据正呈现爆炸性增长。在这些海量的高维数据中查找目标数据也随之变得耗时和低效。为了解决上述问题,近似最近邻的概念及各种算法被陆续提出,并成为图像检索、机器学习、数据挖掘等多种应用中的一类基本算法。其中的乘积量化算法(PQ)具备内存消耗低,查询效率高等优点,被证明是解决高维空间近似最近邻查找的最有效算法之一。基于经典乘积量化算法的不足,近年来不少学者对乘积量化算法进行了优化改进,由于乘积量化算法中存在向量子空间中特征点分布不均匀的问题,优化的乘积量化算法(OPQ)被提出来,用于优化空间特征点的重新分配。由于对特征向量进行简单划分,会导致子向量间的相互独立,有学者提出了加法量化算法(AQ)以解决这个问题。为解决特征向量在进行量化时,存在量化误差较大的问题,堆叠量化算法(SQ)通过迭代地对误差进行量化,以进一步降低量化误差。本文中,我们提出了一种新的量化算法来做近似最近邻查找:堆叠乘积量化算法。这种量化算法融合了堆叠量化算法的量化误差低和乘积量化算法内存消耗低的优点。该算法的核心思想为:第一步将高维的特征向量划分成维度相同的低维子特征向量,在每个子向量空间中进行k-means聚类量化;第二步将特征向量与量化后对应的编码单词做差得到对应的误差向量;第三步把误差向量看成特征向量,以此进行划分子向量、子向量分别量化、求误差向量的操作;迭代第三步直到达到终止条件,从而产生一组从粗糙到精细的分层子码本。对分层子码本进行笛卡儿乘积得到整体向量的码本,进而可以得到原始向量的编码表示。本文在经典的SIFT1M、GIST1M和ConvNet1M-128数据集进行实验设计及验证。大量的实验表明,在不少算法性能指标上,比如量化误差、召回率、可扩展性等,本文算法与经典的量化方法相比都有较大优势。而且,对比乘积量化方法,我们的方法能够产生精确度更高的子码本;对比堆叠量化算法,我们的方法消耗内存少且具备较好的扩展性。
[Abstract]:In recent years, big data, artificial intelligence and Internet of things technology have been rapid development, image, video and other high-dimensional data are explosive growth. Finding target data in these massive high-dimensional data becomes time consuming and inefficient. In order to solve the above problems, the concept of approximate nearest neighbor and various algorithms have been proposed one after another, and become a kind of basic algorithms in image retrieval, machine learning, data mining and other applications. The product quantization algorithm (PQ) has the advantages of low memory consumption and high query efficiency. It has been proved to be one of the most effective algorithms for approximate nearest neighbor search in high dimensional space. Due to the shortcomings of the classical product quantization algorithm, many scholars have improved the product quantization algorithm in recent years, because of the problem of uneven distribution of the feature points in the product quantization algorithm. (OPQ), an optimized product quantization algorithm, is proposed to optimize the redistribution of spatial feature points. Because the simple partition of the feature vectors leads to the independence of the subvectors, some scholars have proposed the additive quantization algorithm (AQ) to solve this problem. In order to solve the problem of large quantization error in the quantization of eigenvector, the stacked quantization algorithm (SQ) quantizes the error iteratively to further reduce the quantization error. In this paper, we propose a new quantization algorithm to do approximate nearest neighbor lookup: stack product quantization algorithm. This quantization algorithm combines the advantages of low quantization error of stack quantization algorithm and low memory consumption of product quantization algorithm. The key idea of the algorithm is as follows: firstly, the high-dimensional feature vectors are divided into low-dimensional subvectors with the same dimension, and the k-means clustering quantization is carried out in each subvector space. In the second step, the feature vector and the corresponding coded word after quantization are devided to the corresponding error vector, the third step regards the error vector as the feature vector, and then divides the subvector, quantizes the subvector, and calculates the operation of error vector. Iterate the third step until the termination condition is reached to produce a set of hierarchical subcodebooks from rough to fine. The codebook of the global vector is obtained by Cartesian product of the layered subcodebook, and the coding representation of the original vector can be obtained. In this paper, the classical SIFT1M GIST1M and ConvNet1M-128 data sets are designed and verified. A large number of experiments show that this algorithm has more advantages than classical quantization methods in many performance indexes such as quantization error recall rate and scalability. In addition, our method can produce more accurate subcodebook by contrast product quantization. Compared with stack quantization algorithm, our method consumes less memory and has better expansibility.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 张桂榕;;反向最近邻查询研究综述[J];电脑知识与技术;2011年28期

2 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期

3 刘永山,薄树奎,张强,郝忠孝;多对象的最近邻查询[J];计算机工程;2004年11期

4 郝忠孝;刘永山;;空间对象的反最近邻查询[J];计算机科学;2005年11期

5 王淼;郝忠孝;;不确定性对象的反向最近邻查询[J];计算机工程;2010年10期

6 张旭;何向南;金澈清;周傲英;;面向不确定图的k最近邻查询[J];计算机研究与发展;2011年10期

7 杨泽雪;郝忠孝;;空间数据库中的障碍反向最近邻查询[J];计算机工程与应用;2011年34期

8 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期

9 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期

10 朱婧;;平面中点对一般多边形的最近邻查询研究[J];科技通报;2014年01期

相关会议论文 前10条

1 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

2 管猛;张剡;柏文阳;;基于地表的连续可见最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

3 陈璐;高云君;柳晴;陈刚;;受限相互最近邻查询处理[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

4 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

5 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年

6 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

7 刘星毅;;基于欧式距离的最近邻改进算法[A];广西计算机学会2010年学术年会论文集[C];2010年

8 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

10 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

相关博士学位论文 前8条

1 魏本昌;基于内容的大规模图像检索技术研究[D];华中科技大学;2015年

2 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年

3 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年

4 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年

5 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年

6 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年

7 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年

8 李艳红;路网中移动对象最近邻及反向最近邻查询处理研究[D];华中科技大学;2011年

相关硕士学位论文 前10条

1 杨根茂;基于哈希加速的近似最近邻检索算法研究[D];浙江大学;2015年

2 原s,

本文编号:2142792


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2142792.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户52086***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com