基于深度哈希学习算法的移动视觉检索系统设计与实现
发布时间:2021-03-10 22:04
移动设备的激增产生了新的移动视觉搜索应用,使用户能够使用智能手机感知周围的环境。由于移动视觉搜索的特殊挑战,实现高比特率成为现有相关工作的一贯目标,而在移动视觉检索领域,检索的速度以及对移动端设备的性能要求也是至关重要的。在这样的背景下,本文设计并实现了基于深度哈希学习算法的移动视觉检索系统。在本文中,探索整体利用深度学习为基础的哈希方法来构建更强大和即时的移动视觉搜索,提出了轻量级,低延迟和高精度的基于深度哈希方法构建移动视觉搜索系统。首先,利用MobileNet模型的体系结构,通过在保持精确性的同时减少模型参数的数量来显著减少深度特征提取的延迟,此模型尺寸远远小于之前的模型,并能保持相对高的检索准确率,有利于将模型部署在移动端直接提取特征。接着,在MobileNet网络模型中添加一个类似哈希的网络层,使用移动视觉数据来有监督的训练模型,使用哈希层可以将图片对应的特征向量量化为二元哈希码,使用向量间的海明距离来检索最相似的图片,这会大大提高检索的速度并在检索精度上也有一定提高。最后,评估结果表明,所提出的系统在检索精度方面(MAP)可以超过目前为止最先进算法的性能。更重要的是,内存消...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?LeNet[4]网络架构??如图2-1所示,LeNet-5共有7层,不包含输入,每层都包含可训练参数,??
3??图2-2?AlexNet[13】网络架构??如图2-2所示,上图采用是两台GPU服务器,所有会看到两个流程图,我??们这里以一台CPU服务器为例做描述。该模型一共分为8层,5个卷积层,,以??及3个全连接层,在每一个卷积层中包含了激励函数ReLU以及局部响应归一化??LRN处理,然后在经过降采样(pooling处理)。通过众多的技巧(dropout、RELU、??Data?Augmentation)解决深层神经网络的过拟合问题,使得该网络在60?million??参数的情况下依旧能很好收敛。这些方法现在已经成为了?CNN不可或缺的一部??分。该网络共包含8个权重层,其中5个卷积层,3个全连接层。1,2卷积层后??连有LRN层,不过此后的网络也证明LRN并非CNN中必须包含的层,甚至有??些网络加入LRN后效果反而降低。每个LRN及最后层卷积层后跟有最大池化??层,并且各个权重层均连有ReLU激活函数。全连接层后使用了?Dropout这一方??法以解决过拟合。图2-2的特征图需要综合上下两个GPU的结果
p-5错误率6.67%,只有AlexNet的一半不到。??onVl有22层深,比AlexNet的8层或者VGGNet的19层还要只有15亿次浮点运算,同时只有500万的参数量,仅为AlexN万)的1/12,却可以达到远胜于AlexNet的准确率,可以说是实用的模型。InceptionVl降低参数量的目的有两点:第一,参,需要供模型学习的数据量就越大,而目前高质量的数据非常越多,耗费的计算资源也会更大。??onVl参数少但效果好的原因除了模型层数更深、表达能力更强是去除了最后的全连接层,用全局平均池化层(即将图片尺寸变为全连接层几乎占据了?AlexNet或VGGNet中90%的参数量,而去除全连接层后模型训练更快并且减轻了过拟合。??onVl中精心设计的Inception?Module提高了参数的利用效率,示。这一部分也借鉴了?NetworklnNetwork的思想,形象的解odule本身如同大网络中的一个小网络,其结构可以反复堆叠。??
本文编号:3075354
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?LeNet[4]网络架构??如图2-1所示,LeNet-5共有7层,不包含输入,每层都包含可训练参数,??
3??图2-2?AlexNet[13】网络架构??如图2-2所示,上图采用是两台GPU服务器,所有会看到两个流程图,我??们这里以一台CPU服务器为例做描述。该模型一共分为8层,5个卷积层,,以??及3个全连接层,在每一个卷积层中包含了激励函数ReLU以及局部响应归一化??LRN处理,然后在经过降采样(pooling处理)。通过众多的技巧(dropout、RELU、??Data?Augmentation)解决深层神经网络的过拟合问题,使得该网络在60?million??参数的情况下依旧能很好收敛。这些方法现在已经成为了?CNN不可或缺的一部??分。该网络共包含8个权重层,其中5个卷积层,3个全连接层。1,2卷积层后??连有LRN层,不过此后的网络也证明LRN并非CNN中必须包含的层,甚至有??些网络加入LRN后效果反而降低。每个LRN及最后层卷积层后跟有最大池化??层,并且各个权重层均连有ReLU激活函数。全连接层后使用了?Dropout这一方??法以解决过拟合。图2-2的特征图需要综合上下两个GPU的结果
p-5错误率6.67%,只有AlexNet的一半不到。??onVl有22层深,比AlexNet的8层或者VGGNet的19层还要只有15亿次浮点运算,同时只有500万的参数量,仅为AlexN万)的1/12,却可以达到远胜于AlexNet的准确率,可以说是实用的模型。InceptionVl降低参数量的目的有两点:第一,参,需要供模型学习的数据量就越大,而目前高质量的数据非常越多,耗费的计算资源也会更大。??onVl参数少但效果好的原因除了模型层数更深、表达能力更强是去除了最后的全连接层,用全局平均池化层(即将图片尺寸变为全连接层几乎占据了?AlexNet或VGGNet中90%的参数量,而去除全连接层后模型训练更快并且减轻了过拟合。??onVl中精心设计的Inception?Module提高了参数的利用效率,示。这一部分也借鉴了?NetworklnNetwork的思想,形象的解odule本身如同大网络中的一个小网络,其结构可以反复堆叠。??
本文编号:3075354
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3075354.html