基于大规模相似性搜索的Hashing算法研究

发布时间:2017-07-16 00:02

  本文关键词:基于大规模相似性搜索的Hashing算法研究


  更多相关文章: 相似性搜索 图像检索 线性投影 局部结构 Hashing 算法


【摘要】:随着互联网的快速发展与普及,网络多媒体数据(包括:文档、图片、视频等)正在呈现爆炸式的增长,这给那些需要进行相似性搜索的应用带来了巨大的挑战,最典型的就是基于内容的图像检索。近年来,Hashing算法被广泛用来进行相似性搜索,因为它不仅可以节约存储空间,还可以显著地提高检索的时间效率。本文正是针对大规模相似性搜索这一问题,对Hashing算法进行研究。首先以传统谱哈希算法作为切入点,对它进行优化和改进。然后针对传统Hashing算法框架的缺点,提出新的Hashing模型。最后对现有的半监督Hashing算法进行重新建模,提高了检索准确度。本文主要工作和创新点包括:(1)提出了局部线性谱哈希模型。该模型针对谱哈希的缺点,对其进行优化,包括:(1)谱哈希只考虑了数据的近邻关系,对非近邻关系没有做处理。本文的方法则既考虑了近邻关系,也考虑了非近邻关系;(2)谱哈希需要计算一个n×n大小的相似性矩阵,当数据容量特别大的时候,该矩阵的构造非常耗时。本文的方法则采用了一个m×m(mn)的局部相似性矩阵,因为m远小于n,因此矩阵的构造效率非常高;(3)谱哈希在求解时,假设数据符合均匀分布,并且求解分析过程比较复杂。均匀分布的假设在很多情况下不符合实际,本文回避了该假设,并用相对简单的线性模型来求解提出的模型。最后的实验结果证明本文的方法既简单又高效。(2)提出了保局哈希模型。传统的Hashing算法会依次进行两个步骤:降维+量化。降维过程中,把高维数据降到低维空间上。量化过程中,把降维后的实数值量化成二值码。因为量化时,一般采用直接阈值化操作,因此这类方法很有可能会把降维过程中保留的数据局部结构给破坏掉。而本文将降维和量化结合在一起,用一种联合优化模型同时完成降维和量化操作,这样可以避免量化过程对数据局部结构的破坏。实验结果验证了本文的保局策略更加合理。(3)提出了保局判别哈希模型。Hashing算法可以分为非监督、半监督和监督三大类。半监督方法因为结合了标签和非标签数据,性能非常卓越,最具代表性的就是半监督哈希算法。但是该算法只考虑了标签数据的点对关系,忽略了全局信息。其次,它没有很好地去保留数据的局部空间结构。本文结合线性判别分析和线性保局投影,提出了保局判别哈希模型来同时考虑数据的局部结构和全局结构。在三个标准数据集上的实验结果证实了本文方法的稳定性和优越性。
【关键词】:相似性搜索 图像检索 线性投影 局部结构 Hashing 算法
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 摘要3-5
  • ABSTRACT5-12
  • 第一章 绪论12-16
  • 1.1 研究背景12-13
  • 1.2 问题描述13-14
  • 1.3 论文结构安排14-16
  • 第二章 线性谱哈希16-30
  • 2.1 相关工作16-17
  • 2.1.1 谱哈希16-17
  • 2.2 研究动机17
  • 2.3 线性谱哈希17-22
  • 2.3.1 问题描述17-18
  • 2.3.2 线性解法18
  • 2.3.3 松弛与求解18-22
  • 2.4 实验22-25
  • 2.4.1 CIFAR-1022-25
  • 2.4.2 STL-1025
  • 2.5 本章小结25-30
  • 第三章 保局哈希30-48
  • 3.1 相关工作30-31
  • 3.2 研究动机31-32
  • 3.3 保局哈希32-39
  • 3.3.1 投影阶段33-34
  • 3.3.2 量化阶段34-35
  • 3.3.3 联合优化框架35-36
  • 3.3.4 松弛和优化36-39
  • 3.4 实验39-42
  • 3.4.1 数据集39-40
  • 3.4.2 评价准则和方法40-41
  • 3.4.3 结果分析41-42
  • 3.5 本章小结42-48
  • 第四章 保局判别哈希48-62
  • 4.1 相关工作48-50
  • 4.1.1 线性判别分析48-49
  • 4.1.2 线性保局投影49-50
  • 4.2 研究动机50-51
  • 4.3 保局判别哈希51-55
  • 4.3.1 目标函数51-52
  • 4.3.2 求解算法52-54
  • 4.3.3 复杂度分析54-55
  • 4.4 实验55-59
  • 4.4.1 数据集和评价准则55
  • 4.4.2 结果与分析55-59
  • 4.5 本章小结59-62
  • 全文总结62-64
  • 参考文献64-68
  • 致谢68-70
  • 攻读学位期间发表的学术论文目录70-72
  • 攻读学位期间参与的项目72-74

【相似文献】

中国硕士学位论文全文数据库 前1条

1 赵康;基于大规模相似性搜索的Hashing算法研究[D];上海交通大学;2015年



本文编号:546271

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/546271.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户df836***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com