面向近似近邻查询的分布式哈希学习方法

发布时间：2020-02-07 06:47

【摘要】：近似近邻查询是信息检索领域中的一项重要技术.随着文本、图像、视频等非结构化数据规模的迅速增长,如何对海量高维数据进行快速、准确的查询是处理大规模数据所必须面对的问题.哈希作为近似近邻查询的关键方法之一,能够在保持数据相似性的条件下对高维数据进行大比例压缩.以往所提出的哈希方法往往都是应对集中式存储的数据,因而难以处理分布式存储的数据.该文提出了一种基于乘积量化的分布式哈希学习方法SparkPQ,并在Spark分布式计算框架下实现算法.在传统的乘积量化方法的基础上,该文首先给出了分布式乘积量化模型的形式化定义.然后,作者设计了一种按行列划分的分布式矩阵,采用分布式K-Means算法实现模型求解和码本训练,利用训练出的码本模型对分布式数据进行编码和索引.最终,该文构建了一套完整的近似近邻查询系统,不仅可以大幅降低存储和计算开销,而且在保证高检索准确率的条件下加速查询效率.在较大规模的图像检索数据集上进行的实验验证了方法的正确性和可扩展性.
【图文】：

弹性分布,集群系统,架构

成一栈式的生态系统．图１是Ｓｐａｒｋ集群系统架构图．驱动程序（Ｄｒｉｖｅｒ）会和集群的管理器（ＣｌｕｓｔｅｒＭａｎａｇｅｒ）相连接，驱动管理器为集群其他节点分配资源．在分配完毕以后，驱动程序会将应用程序发送到各个节点的执行进程（Ｅｘｅｃｕｔｏｒ）．之后驱动程序会调配任务给各个执行进程执行任务．图１Ｓｐａｒｋ集群系统架构图弹性分布式数据集（ＲｅｓｉｌｉｅｎｔＤｉｓｔｒｉｂｕｔｅｄＤａｔａ－ｓｅｔｓ，ＲＤＤ）［１１］是Ｓｐａｒｋ中的分布式内存的抽象．相比于ＭａｐＲｅｄｕｃｅ的计算过程，ＲＤＤ可以被缓存在内存中，每一次的计算产生的结果都可以保留在内存中，从而避免了大量的磁盘读写操作，大大节省了计算时间．在Ｓｐａｒｋ程序中，ＲＤＤ的创建是通过静态类ＳｐａｒｋＣｏｎｔｅｘｔ来实现，主要包含有两种创建来源：一是从指定的文件系统（或指定的数据库）读取数据来创建；二是从内存数据集合直接生成．不同于ＭａｐＲｅｄｕｃｅ中仅有ｍａｐ和ｒｅｄｕｃｅ两种操作，ＲＤＤ还支持多种丰富的常用操作，主要分为转换操作、控制操作和行为操作３类．转换操作顾名思义，就是将一个ＲＤＤ操作之后转换为另一个ＲＤＤ，包括ｍａｐ、ｆｌａｔＭａｐ、ｆｉｌｔｅｒ等操作．控制操作主要是将ＲＤＤ缓存到内存中或者磁盘上，比如ｃａｃｈｅ、ｐｅｒｓｉｓｔ、ｃｈｅｃｋ－ｐｏｉｎｔ等操作．行为操作主要分为两类：一类是变成集合或标量的操作；另一类是将ＲＤＤ存储到外部文件系统或数据库的操作．Ｓｐａｒｋ的所有对ＲＤＤ的操作，只有

码本,范数,量化模型,分布式存储

图３ＢｌｏｃｋＭａｔｒｉｘ的划分方式４．３训练码本首先，我们将乘积量化模型的目标函数进行分布式表示，把式（１）改写成弗罗贝尼乌斯范数（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）的形式：辶ＰＱ＝ｍｉｎＸ－Ｃ１Ｂ１鐤ＣｍＢq縬纐膓牛恚玻疲ǎ玻┢渲校兀剑保玻郏荩睿拢剑猓保猓玻郏猓荩睿旅嬷っ魅绾未邮剑ǎ保┩频嫉绞剑ǎ玻っ鳎筛ヂ薇茨嵛谒狗妒亩ㄒ蹇芍粒玻疲健疲椤疲辏幔椋辏玻健疲椋幔椋玻玻兀茫保拢辩枺茫恚聁縬纐膓牛恚玻疲剑保郏荩睿茫保猓保保猓保玻猓保郏荩铉枺茫恚猓恚保猓恚玻猓恚郏輖縬纐模顀牛玻疲剑保保茫保猓保保保玻茫保猓保玻保睿茫保猓保铉枺恚保茫恚猓恚保恚玻茫恚猓恚玻恚睿茫恚猓恚睿玻疲剩兀茫保拢辩枺茫恚聁縬纐膓牛恚玻疲健疲睿椋剑保椋茫保猓保殓枺茫恚猓韖縬纐模閝牛玻玻虼耸剑ǎ保┛梢愿男次剑ǎ玻け希诜植际降南低持校菔欠植际降卮娲⒃谟涤校痈鼋诘愕募扑慵荷希偕璧冢舾鼋诘闵洗娲⒌模睿舾鍪荩吹氖菥卣螅鼐涂梢员换殖桑痈鲂〉木卣蠼蟹植际酱娲ⅲ矗兀

本文编号：2577111

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2577111.html

上一篇：基于区域特征的SCM多聚焦图像融合算法
下一篇：面向文本信息处理的汉语句子和小句

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|