当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向大规模跨模态检索的哈希方法研究

发布时间:2020-04-14 16:05
【摘要】:近来,随着信息技术的高速发展,各行各业的数据积累都呈爆炸式增长,这意味着我们已经进入了大数据时代。大数据主要体现在两方面:数据量和数据维度的不断增长以及数据类型的日益增多。大数据在各行各业都有着广泛的应用,已经成为国家重点战略资源。存储,管理,分析大数据已经成为了学术界和工业界的热点话题,大数据检索也成为一个主要问题。为了有效利用大数据,机器学习技术至关重要。由于数据量和数据维度的不断增长,例如,微信和QQ光是活跃用户就有8亿多,2017年淘宝双十一成交额达到1682亿元,在大数据检索中进行精确最近邻搜索已经难以实现,于是近似最近邻搜索在大数据检索中扮演起重要的角色。近似最近邻搜索通过比较数据间的相似度返回与输入数据最相似的结果集。这一方法在时间复杂度低的同时能保持相对准确的检索精度。近似最近邻搜索在很多应用中起到关键作用,例如跨模态检索。随着数据类型的日益增多,在很多场景中,一个对象存在着多种模态,如图片,文本等。例如,新浪微博上仅仅带有文字描述的图片就有36亿之多。跨模态检索是为了找出不同模态间的相关性,从而实现用一种模态检索出与其相似的另一模态。跨模态检索不但需要注意模态间的相关性,同时也需要保证模态内的相关性。随着对跨模态检索的研究与日俱增,跨模态检索也成为一个新兴的问题。在大数据检索中,由于哈希方法存储容量低,检索速度快,基于哈希的近似最近邻搜索方法得到广泛关注。哈希方法把数据的原始特征映射到低维的二进制空间,即海明空间,并尽可能多地保留数据信息,例如局部结构,语义信息等。数据间的相似度可以通过计算其哈希码的海明距离快速获得。哈希方法不但能够降低数据存储和通讯开销,还能降低数据维度,显著提升检索效率。此外,基于哈希的跨模态检索方法也被提出来执行不同模态间的高效搜索。有些方法通过对目标函数进行松弛,如近似替代;有些方法分为两步分别获得哈希函数跟哈希码;有些方法使用特别复杂的目标函数。这些方法有的会造成大量的信息损失,有的训练速度会非常慢。此外,跨模态检索还需要考虑一些其他问题。例如,有些方法不能充分地利用标签信息,而标签信息是数据信息中最为有用的一部分;有的方法在优化过程中松弛二进制限制,然后将输出的连续值简单地二值化,从而产生大量量化误差。考虑到上述问题,本文提出了一个新的跨模态哈希方法——监督的跨模态无松弛哈希,它不但能充分利用标签信息,还能无松弛地产生最终的哈希码。该方法通过将不同模态特征映射到一个低维同构空间以保持其模态间的相似性,并加入标签信息保持其模态内的相似性,同时学习出一个正交旋转矩阵以最小化量化误差并在线性时间内学习出最终的哈希码。本文同时提出了一个迭代算法来解决目标函数的优化问题。上文提到的方法将在三个数据集上进行实验,包括自我验证实验和与其它跨模态哈希方法进行对比实验,实验结果表明本文提出的监督跨模态无松弛哈希方法在跨模态搜索任务中与其它方法相比,具有明显的效果提升。
【图文】:

降维,阈值,哈希,阈值函数


目前大多数哈希方法都是通过某个阈值函数对每一维进行简单的二值化处逡逑理,这产生了一个问题:原始数据经降维后,如果某一维的值集中在阈值附近,逡逑此时相似的数据在该位上的哈希码却不一样。如图1-3所示。量化方法就是在这逡逑样的背景下提出来的。常见的量化方法有双位量化法(Double-Bit邋Quantization,逡逑DBQ)[33]、曼哈顿哈希(Manhattan邋Hashing,MH)[34^。逡逑101,邋.——.邋.——I逦,——,邋,——,——逡逑8邋■逦-逡逑6邋■逦|邋-逡逑4邋-逦-逡逑2.邋?...邋'、逡逑?逦*邋*邋t*逡逑0—逦逡逑-2.邋?邋?邋?邋,?邋?邋_逡逑-4邋?逡逑-8邋■逦-逡逑■8邋■逦-逡逑-10邋I逦1逦1逦1逦1逦逦1逦1逦1逦1逦逡逑-10逦-8逦-6逦-4逦-2逦0逦2逦4逦6逦8逦10逡逑图1-3降维后的值集中在阈值附近逡逑DBQ在每一维上使用两个阈值函数将该维分成三个部分,并且每一维用两逡逑位哈希码表示。它提出了一种自适应的阈值学习算法,可以学习出最优的阈值函逡逑数,,而不需要人工定义。逡逑MH认为

检索效果


图3-2邋SCMH-WR在MIRFLICKR中各参数对检索效果的影响逡逑
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 蒋大宏;动态哈希方法[J];计算机工程;1993年01期

2 鲁明;宋馥莉;;基于误差加权哈希的图像检索方法[J];河南科技;2016年17期

3 宋欣;;哈希:品质承诺铸就品牌基石[J];现代企业文化;2012年Z1期

4 蒋大宏;实现检索代价最优的动态哈希法[J];计算机工程与应用;1994年Z2期

5 孙瑶;;深度学习哈希研究与发展[J];数据通信;2018年02期

6 潘辉;郑刚;胡晓惠;马恒太;;基于感知哈希的图像内容鉴别性能分析[J];计算机辅助设计与图形学学报;2012年07期

7 牛夏牧;焦玉华;;感知哈希综述[J];电子学报;2008年07期

8 徐泽明;侯紫峰;;串的快速连续弱哈希及其应用[J];软件学报;2011年03期

9 郭呈呈;于凤芹;陈莹;;改进哈希编码加权排序的图像检索算法[J];传感器与微系统;2018年09期

10 刘超;王卫东;;基于双哈希词典机制中文分词的研究[J];信息技术;2016年11期

相关会议论文 前10条

1 张维克;孔祥维;尤新刚;;安全鲁棒的图像感知哈希技术[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年

2 刘玉莹;刘宏哲;袁家政;何乔鹏;;深度哈希在大规模图像处理中的应用[A];中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集[C];2017年

3 夏斌;王斌;关志峰;;一种基于多维哈希链的M-Commerce微支付方案[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

4 吴万烽;王汝传;黄海平;孙力娟;;Sead协议哈希链机制的分析与改进[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年

5 张啸;邵健;吴飞;庄越挺;;SSH:基于稀疏谱哈希的图像索引[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

6 尚凤军;潘英俊;;一种双哈希IP数据包分类算法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

7 王国仁;叶峰;王欣晖;于戈;郑怀远;;NOW环境下并行哈希连接算法的设计与实现[A];第十五届全国数据库学术会议论文集[C];1998年

8 吴万烽;王汝传;黄海平;李玲娟;;基于可再生哈希链及二次示证方案的安全高效距离向量协议[A];江苏省电子学会2010年学术年会论文集[C];2010年

9 何云峰;林朝辉;于俊清;管涛;;基于位置敏感哈希的分布式高维索引方法研究[A];第八届和谐人机环境联合学术会议(HHME2012)论文集NCMT[C];2012年

10 魏波;;哈希DR1010COD测定仪在COD分析中的应用[A];四川省环境科学学会二0一一年学术年会论文集[C];2011年

相关重要报纸文章 前2条

1 ;中华人民共和国和约旦哈希姆王国关于建立战略伙伴关系的联合声明[N];人民日报;2015年

2 韩大庆 李跃坤 顾晨曦;哈希姆:进入南亚市场成本低[N];中国贸易报;2006年

相关博士学位论文 前10条

1 马超;语义鉴别和相似性保持的哈希方法研究与应用[D];南京理工大学;2017年

2 季剑秋;面向大规模数据相似计算和搜索的哈希方法研究[D];清华大学;2015年

3 付海燕;基于图像哈希的大规模图像检索方法研究[D];大连理工大学;2014年

4 刘兆庆;图像感知哈希若干关键技术研究[D];哈尔滨工业大学;2013年

5 姚涛;基于哈希方法的跨媒体检索研究[D];大连理工大学;2017年

6 陈勇昌;基于不变特征的数字水印与感知哈希图像认证技术研究[D];华南理工大学;2014年

7 赵玉鑫;多媒体感知哈希算法及应用研究[D];南京理工大学;2009年

8 张慧;图像感知哈希测评基准及算法研究[D];哈尔滨工业大学;2009年

9 高毫林;基于哈希技术的图像检索研究[D];解放军信息工程大学;2014年

10 李金凤;基于感知哈希及数字水印的音频认证技术研究[D];西南交通大学;2015年

相关硕士学位论文 前10条

1 赵毅;基于深度哈希的大规模幼儿图书页面检索方法研究[D];华中师范大学;2018年

2 周Oz;基于深度哈希学习的大规模图像检索技术研究[D];哈尔滨工业大学;2018年

3 井维臻;近似视频的哈希检索方法研究[D];山东大学;2018年

4 黄华俊杰;面向大规模跨模态检索的哈希方法研究[D];山东大学;2018年

5 张鹏飞;大规模图像内容分析与检索方法研究[D];山东大学;2018年

6 乔思斌;多格式音频感知哈希认证方法研究[D];兰州理工大学;2018年

7 张涛;移动终端语音感知哈希认证方法及应用研究[D];兰州理工大学;2018年

8 杨广飞;基于核方法的跨模哈希检索研究[D];安徽大学;2018年

9 缪黄辉;基于多核学习和图正则化的跨模态哈希检索研究[D];安徽大学;2018年

10 何涛;基于深度学习和哈希的图像检索的方法研究[D];电子科技大学;2018年



本文编号:2627468

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2627468.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户67007***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com