基于卷积神经网络的快速图片检索算法研究

发布时间：2021-11-02 00:42

　　近年来,智能照相设备的普及带来图像数量的激增,如何从海量图像中快速准确地查询到用户感兴趣的内容,已成为多媒体信息检索领域的一大研究热点。基于内容的图片检索,允许用户通过输入样本图片检索出语义上相似的图片,已在电子商务、媒体设计、公共安全等领域获得广泛应用。对于大规模图片检索,检索准确率、资源消耗、检索效率是需要考虑的主要因素。卷积神经网络能够学习图片的深层语义信息,基于卷积神经网络的图片检索能大幅度提升检索准确率。哈希算法将任意长度的向量映射为较短长度的二进制码,可解决资源消耗和检索效率两大问题。基于卷积神经网络的哈希算法是当前图片检索的一大重要研究方向。由于现有的有标签图片的缺少以及人工标注的高成本,本文首先从无监督深度哈希方面展开研究。接着,由于现有的有标签图片通常拥有多个标签信息,如何充分利用图片的多标签信息来提升检索准确率也是本文研究的一大重点。本文针对无标签图片提出了基于数据增强的无监督深度哈希算法（UTH）。我们首先介绍两大常用的度量学习模型:Siamese和Triplet,并设计实验证实Triplet在检索准确率方面优于Siamese。为了让模型学习到无标签图片的辨识信息...

【文章来源】：上海交通大学上海市 211工程院校 985工程院校教育部直属院校

【文章页数】：97 页

【学位级别】：硕士

【部分图文】：

基于卷积神经网络的快速图片检索算法研究

–1感知机模型

前馈神经网络

Fig 2–2 The structure of a feed-forward Neural Network[9]图2–2中的 w1,j,m+1和w2,i,k+1即为连接矩阵。在前馈神经网络中，输入层中神经元的个数等于输入数据的维度。在训练中将输入向量赋给输入层。在图2–2中，可以接受一个 m 维的输入向量。输入向量的每个维度值都被逐层传播到隐含层，通过每一层的非线性加权求和函数进行前馈计算。前馈神经网络中最后输出层的计算结果就是整个模型的输出。2.1.3 深度卷积神经网络在本节中，我们先通过介绍最经典的 LeNet-5 深度卷积神经网络来详细介绍神经网络中每一层的作用。接下来分别介绍由 LeNet-5 衍生出当下流行的几个神经网络模型的特点和优点。最后，说明本文中使用的卷积神经网络模型。首先，我们介绍一种经典的用来进行手写数字识别的卷积神经网络，LeNet-5[10]。LeNet-5 由 Yann LeCun 在 1998 年提出，在手写数字和机器印刷数字识别任务上取得了突破性的成果。其模型结构图如图2–3所示。LeNet-5 模型中除去输入层共有 7 层神经元层。其中每一层都包含大量的可训练参数

图片,模块结构图,特征向量

卷积神经网络，作为特征学习网络模型，由于其端对端的学习特性在计算机视觉领域有了快速的发展。基于卷积神经网络的图片检索技术也有了巨大的进展。基于卷积神经网络的图片检索系统如图2–6所示。首先将数据库的所有图片作为训练图片经过预处理后输入到 CNN 内训练神经网络模型 f 中。在检索过程中，将本地数据库的所有图片都输入至训练好的 CNN 模型 f 得到每张图片对应的特征向量集D。对于一张检索图片q，经过 CNN 模型 f 提取到的特征向量为f(q)，将f(q)和D中的所有特征向量进行相似度计算并排序，最后返回前k个和检索图片q最相近的样本。现有的基于卷积神经网络的图片检索是度量学习模型，学习目标是使得— 13 —

本文编号：3471003

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3471003.html

上一篇：基于android手机传感器的车道检测设计与实现
下一篇：基于1DCNN的机械故障诊断算法研究与软件平台设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|