基于二值哈希和量化的近似最近邻搜索研究
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41
【图文】:
1.2.2基于二值哈希的方法逡逑基于哈希的方法中最为流行的是二值哈希方法。二值哈希方法的通用流程逡逑如图1.2所示。二值哈希方法需要通过哈希函数将原始高维特征映射为低维汉明逡逑空间中的二值码,原始高维特征之间的欧氏距离被二值码之间的汉明距离近似逡逑代替。由于二值哈希方法在数据库中仅仅需要存储二进制码,因此存储空间占用逡逑比较低;另一方面,二值码之间的汉明距离可以被现有CPU架构中的指令高效逡逑地计算,因此汉明距离计算比较快。由于这两方面的优势,二值哈希方法受到越逡逑来越多的关注和研宄。逡逑\逡逑W\逡逑t逦100逦10?逡逑O逦oootf^l邋00,11^逡逑?邋—逦逡逑oio邋on逡逑空间存储:高维浮点型向量逦空间栜:低维二值码逡逑si离计算:欧氏距离逦距离计算:汉明距离逡逑图像s间逡逑图1.2二值哈希方法流程。逡逑一般来说,二值哈希方法通常需要学习一系列的哈希函数来产生规定比特数逡逑目的二值码。图1.3展示了基于二值
一旦获得了查询样本的量化结果(即码本单词索引),查询样本与数据逡逑库中每个样本之间的距离计算可以通过查表完成。综上所述,量化方法作为一种逡逑特殊的哈希方法,同样具有距离计算快、存储空间占用低的优势。图1.4介绍基逡逑于量化的近似最近邻检索的基本流程。逡逑数据'"库逦/逦数ig库逡逑线下逦——逡逑w±逦码本—}逦逡逑°邋^邋so13逡逑B3逡逑查询样本邋^^邋p逦l*J ̄囡逐]■—逡逑'邋V邋’逦[疆]逦_逡逑图1.4基于量化的近似最近邻检索方法。逡逑由于码本单词通常是与原始高维特征处于同一空间,均为高维浮点型向量,逡逑因此不同的码本单词对之间距离相等的概率非常低,可以克服二值哈希方法中逡逑不同二值码对具有相同汉明距离的问题。另一方面,量化方法的优化目标没有类逡逑9逡逑
邋j)邋=邋L邋—邋bTbj邋—邋(l^xi邋-邋bi)r(l2,xl邋—邋bj).逦(2.4)逡逑对于该线性保距目标,本文给出一个可视化的解释,见图2.1。从逡逑ANN_SIFT1M数据集[66]中随机选取10,000对数据点,并计算它们之间的欧氏逡逑距离。然后使用ITQ方法[9]生成每个数据点的二进制码,码长32比特,再计算逡逑I逦每对数据点之间的汉明距离。每对数据点用一个蓝色的圆表示,红色的实线通过逡逑;逦对这些距离对进行最小二乘拟合生成,即本文提出的线性保距目标采用的方法。逡逑所有的数据对分布在红色的实线两边的一个长条形区域中。可以直观地发现:如逡逑果这个长条形区域向中间红色实线收缩,也就是越窄,哈希函数的保距性能越逡逑好。这个收缩操作使得具有相同欧氏距离的数据对有更相似的汉明距离,间接地逡逑实现了保距目标。逡逑与本文的方法相似,BRE方法[1Q]也应用了保距约束,但是BRE通过最小逡逑化归一化的汉明距离和归一化的欧氏距离之间的偏差实现保距。它可以被看成逡逑本文的线性保距目标在a邋=逦=邋0时的一个特例
【相似文献】
相关期刊论文 前10条
1 姜大光;孙贺娟;易军凯;;基于距离的相似最近邻搜索算法研究[J];北京化工大学学报(自然科学版);2017年05期
2 程碧达;;静音钻[J];科学启蒙;2017年Z1期
3 周屹;杨泽雪;邢传军;曲天伟;;一种连续最近邻查询的优化方法[J];黑龙江工程学院学报(自然科学版);2013年04期
4 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期
5 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期
6 刘文远;杜颖;陈子军;;不确定数据上范围受限的最近邻查询算法[J];小型微型计算机系统;2012年06期
7 蔡贺;张睿;;k最近邻域分类算法分析与研究[J];甘肃科技;2012年18期
8 管莹莹;肖迎元;李玉坤;;基于路网的连续K最近邻查询[J];天津理工大学学报;2012年06期
9 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期
10 刘彬;王建国;;范围最近邻查询方法研究[J];泰山学院学报;2011年03期
相关会议论文 前10条
1 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
4 郑健;皮德常;;基于共享最近邻的聚类和孤立点检测算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
6 钟秉翔;;一种基于虚假最近邻点法的话务量预测模型[A];中国自动化学会控制理论专业委员会B卷[C];2011年
7 冯yN;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年
8 李兰芳;刘开培;罗欢;;最近邻模式识别法在车载FSK信号检测中的应用[A];首届信息获取与处理学术会议论文集[C];2003年
9 周波;石爱国;;混沌序列最近邻多步预报算法[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
10 林丽;冯少荣;薛永生;周晓丹;黄海;;数量关联规则发现中的最近邻聚类方法研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关博士学位论文 前10条
1 王敏;基于二值哈希和量化的近似最近邻搜索研究[D];中国科学技术大学;2019年
2 许洁;基于大间隔最近邻的度量学习算法研究[D];西安电子科技大学;2018年
3 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年
4 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年
5 张婷;基于量化的近似最近邻搜索技术研究[D];中国科学技术大学;2017年
6 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年
7 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年
8 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年
9 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年
10 李鑫;基于度量学习的最近邻信用评分模型研究[D];上海大学;2017年
相关硕士学位论文 前10条
1 郭莹莹;空间数据库中线段组最近邻查询方法研究[D];哈尔滨理工大学;2018年
2 刘娜;基于路网数据的云端安全最近邻查询方法研究[D];安徽工业大学;2018年
3 陈瑞;路网下地理社交文本最近邻查询研究[D];浙江大学;2018年
4 赵亮;面向流式数据近似最近邻查询的降维与量化方法研究[D];南京理工大学;2018年
5 李传青;基于残差量化优化的最近邻图像检索研究[D];合肥工业大学;2018年
6 夏超;短信联系人关系判断系统设计与实现[D];华中科技大学;2017年
7 潘天雄;基于Wi-Fi的室内三维定位算法研究[D];山西大学;2018年
8 程珂;云环境下的多密钥安全最近邻查询技术研究[D];安徽大学;2018年
9 单廷佳;基于图像特征的最近邻搜算法研究[D];中国科学技术大学;2017年
10 卢红丽;基于Goldberg IT-PIR的最近邻LBS隐私查询协议研究及并行实现[D];西北农林科技大学;2017年
本文编号:2794826
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2794826.html