当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于二值哈希和量化的近似最近邻搜索研究

发布时间:2020-08-16 19:10
【摘要】:近似最近邻搜索是多媒体与计算机视觉领域的基础研究方向,在大规模图像检索、行人再识别等实际问题中获得广泛研究和应用。给定一个查询样本,近似最近邻搜索方法的目标是以次线性甚至常数时间复杂度从大规模数据集中返回查询样本的最近邻。目前主流的近似最近邻搜索技术可以分为三类,分别是基于树的方法,基于二值哈希的方法和基于量化的方法。由于基于二值哈希的方法和基于量化的方法具有特征距离计算快和内存占用低的优势,近年来获得了更多的研究关注。其中,二值哈希方法将原始高维数据特征投影为低维二值码,而量化方法将原始高维特征投影为码本中最近的码本单词的整数索引。本文基于对二值哈希方法和量化方法的研究,提出了三种近似最近邻检索框架,应用于图像检索任务。(1)基于线性距离约束的哈希通用框架。二值哈希方法通常需要学习一系列的哈希函数来产生规定长度的二值码。本文提出一种基于线性距离约束的哈希通用框架,同时结合了成对保距约束和单点性约束学习哈希函数。本文设计了一种新颖的成对线性保距目标,保证原始的欧氏距离与汉明距离之间具有线性变换关系,充分体现了二值哈希方法的保距原则。基于不同的单点性约束,本文提出了五种方法去实例化该哈希通用框架。(2)深度有监督量化框架。基于量化的方法目前大多采用无监督的方式进行学习,忽略了数据集中样本包含的语义信息,而且通常将特征学习和码本学习分为两个步骤进行,不能保证码本与特征相匹配,影响了近似最近邻检索的准确度。本文提出了一种深度有监督量化框架以解决该问题。该框架将卷积神经网络和量化网络融合到一个统一的深度架构中,同时学习图像的深度特征和码本。基于不同的码本学习方法,本文提出了三种深度有监督量化方法去实例化该深度有监督量化框架。(3)基于生成对抗网络的深度无监督量化框架。目前深度哈希方法较少在无监督情境下应用,其主要原因是类别或标签等语义信息的缺失给深度网络的训练带来难度。然而,在很多实际应用中获取标签或类别等信息的代价是昂贵的甚至是不可能实现的。本文提出了一种新颖的深度无监督量化方法,可以同时学习特征表达和量化器。基于生成对抗网络,量化器中每个聚类中心学习生成一张真实感的图像。优化目标是通过同时在图像空间和特征空间进行聚类中心的优化,使得获得的聚类中心能够自动抓取图像分布,获得区分性信息。综上,本文主要研究图像检索中的二值哈希方法和量化方法,并提出了三种近似最近邻检索框架。在公共数据集上的测试结果表明,所提出框架的实例化方法相对于现有近似最近邻搜索方法获得了较大的检索性能提升。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41
【图文】:

哈希,二值,检索方法,最近邻


1.2.2基于二值哈希的方法逡逑基于哈希的方法中最为流行的是二值哈希方法。二值哈希方法的通用流程逡逑如图1.2所示。二值哈希方法需要通过哈希函数将原始高维特征映射为低维汉明逡逑空间中的二值码,原始高维特征之间的欧氏距离被二值码之间的汉明距离近似逡逑代替。由于二值哈希方法在数据库中仅仅需要存储二进制码,因此存储空间占用逡逑比较低;另一方面,二值码之间的汉明距离可以被现有CPU架构中的指令高效逡逑地计算,因此汉明距离计算比较快。由于这两方面的优势,二值哈希方法受到越逡逑来越多的关注和研宄。逡逑\逡逑W\逡逑t逦100逦10?逡逑O逦oootf^l邋00,11^逡逑?邋—逦逡逑oio邋on逡逑空间存储:高维浮点型向量逦空间栜:低维二值码逡逑si离计算:欧氏距离逦距离计算:汉明距离逡逑图像s间逡逑图1.2二值哈希方法流程。逡逑一般来说,二值哈希方法通常需要学习一系列的哈希函数来产生规定比特数逡逑目的二值码。图1.3展示了基于二值

检索方法,最近邻,码本


一旦获得了查询样本的量化结果(即码本单词索引),查询样本与数据逡逑库中每个样本之间的距离计算可以通过查表完成。综上所述,量化方法作为一种逡逑特殊的哈希方法,同样具有距离计算快、存储空间占用低的优势。图1.4介绍基逡逑于量化的近似最近邻检索的基本流程。逡逑数据'"库逦/逦数ig库逡逑线下逦——逡逑w±逦码本—}逦逡逑°邋^邋so13逡逑B3逡逑查询样本邋^^邋p逦l*J ̄囡逐]■—逡逑'邋V邋’逦[疆]逦_逡逑图1.4基于量化的近似最近邻检索方法。逡逑由于码本单词通常是与原始高维特征处于同一空间,均为高维浮点型向量,逡逑因此不同的码本单词对之间距离相等的概率非常低,可以克服二值哈希方法中逡逑不同二值码对具有相同汉明距离的问题。另一方面,量化方法的优化目标没有类逡逑9逡逑

汉明距离,成对数据,欧氏距离,映射图


邋j)邋=邋L邋—邋bTbj邋—邋(l^xi邋-邋bi)r(l2,xl邋—邋bj).逦(2.4)逡逑对于该线性保距目标,本文给出一个可视化的解释,见图2.1。从逡逑ANN_SIFT1M数据集[66]中随机选取10,000对数据点,并计算它们之间的欧氏逡逑距离。然后使用ITQ方法[9]生成每个数据点的二进制码,码长32比特,再计算逡逑I逦每对数据点之间的汉明距离。每对数据点用一个蓝色的圆表示,红色的实线通过逡逑;逦对这些距离对进行最小二乘拟合生成,即本文提出的线性保距目标采用的方法。逡逑所有的数据对分布在红色的实线两边的一个长条形区域中。可以直观地发现:如逡逑果这个长条形区域向中间红色实线收缩,也就是越窄,哈希函数的保距性能越逡逑好。这个收缩操作使得具有相同欧氏距离的数据对有更相似的汉明距离,间接地逡逑实现了保距目标。逡逑与本文的方法相似,BRE方法[1Q]也应用了保距约束,但是BRE通过最小逡逑化归一化的汉明距离和归一化的欧氏距离之间的偏差实现保距。它可以被看成逡逑本文的线性保距目标在a邋=逦=邋0时的一个特例

【相似文献】

相关期刊论文 前10条

1 姜大光;孙贺娟;易军凯;;基于距离的相似最近邻搜索算法研究[J];北京化工大学学报(自然科学版);2017年05期

2 程碧达;;静音钻[J];科学启蒙;2017年Z1期

3 周屹;杨泽雪;邢传军;曲天伟;;一种连续最近邻查询的优化方法[J];黑龙江工程学院学报(自然科学版);2013年04期

4 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期

5 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期

6 刘文远;杜颖;陈子军;;不确定数据上范围受限的最近邻查询算法[J];小型微型计算机系统;2012年06期

7 蔡贺;张睿;;k最近邻域分类算法分析与研究[J];甘肃科技;2012年18期

8 管莹莹;肖迎元;李玉坤;;基于路网的连续K最近邻查询[J];天津理工大学学报;2012年06期

9 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期

10 刘彬;王建国;;范围最近邻查询方法研究[J];泰山学院学报;2011年03期

相关会议论文 前10条

1 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

2 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

3 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年

4 郑健;皮德常;;基于共享最近邻的聚类和孤立点检测算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

5 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

6 钟秉翔;;一种基于虚假最近邻点法的话务量预测模型[A];中国自动化学会控制理论专业委员会B卷[C];2011年

7 冯yN;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年

8 李兰芳;刘开培;罗欢;;最近邻模式识别法在车载FSK信号检测中的应用[A];首届信息获取与处理学术会议论文集[C];2003年

9 周波;石爱国;;混沌序列最近邻多步预报算法[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

10 林丽;冯少荣;薛永生;周晓丹;黄海;;数量关联规则发现中的最近邻聚类方法研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关博士学位论文 前10条

1 王敏;基于二值哈希和量化的近似最近邻搜索研究[D];中国科学技术大学;2019年

2 许洁;基于大间隔最近邻的度量学习算法研究[D];西安电子科技大学;2018年

3 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年

4 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年

5 张婷;基于量化的近似最近邻搜索技术研究[D];中国科学技术大学;2017年

6 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年

7 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年

8 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年

9 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年

10 李鑫;基于度量学习的最近邻信用评分模型研究[D];上海大学;2017年

相关硕士学位论文 前10条

1 郭莹莹;空间数据库中线段组最近邻查询方法研究[D];哈尔滨理工大学;2018年

2 刘娜;基于路网数据的云端安全最近邻查询方法研究[D];安徽工业大学;2018年

3 陈瑞;路网下地理社交文本最近邻查询研究[D];浙江大学;2018年

4 赵亮;面向流式数据近似最近邻查询的降维与量化方法研究[D];南京理工大学;2018年

5 李传青;基于残差量化优化的最近邻图像检索研究[D];合肥工业大学;2018年

6 夏超;短信联系人关系判断系统设计与实现[D];华中科技大学;2017年

7 潘天雄;基于Wi-Fi的室内三维定位算法研究[D];山西大学;2018年

8 程珂;云环境下的多密钥安全最近邻查询技术研究[D];安徽大学;2018年

9 单廷佳;基于图像特征的最近邻搜算法研究[D];中国科学技术大学;2017年

10 卢红丽;基于Goldberg IT-PIR的最近邻LBS隐私查询协议研究及并行实现[D];西北农林科技大学;2017年



本文编号:2794826

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2794826.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3bb2d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com