当前位置:主页 > 科技论文 > 自动化论文 >

基于注意力网络的度量学习研究及应用

发布时间:2021-01-04 00:38
  当下,人们对于多媒体数据的需求日益增加,对多媒体数据精准、有效的检索也随之成为重要的研究方向。传统的基于关键词匹配的检索方法较为粗略,且随着互联网数据的爆发式增加,为数据人为添加标签也变得成本极高,难以实现。而基于内容的多媒体数据检索方法因为其便利性、准确性等优点,被越来越多地采用、研究。该系统的要点在于对输入数据进行内容分析,现在大多是采用深度神经网络对数据进行特征提取来实现。本文要解决的主要问题就是多媒体数据检索,方法是利用度量学习训练神经网络作为映射函数,映射多媒体数据到公共特征空间中,且具有相似内容的样本在空间中距离接近。现有的基于深度学习的检索模型多是将样本直接输入神经网络提取特征,但是通常来说,输入样本的不同部分并不都是有利于检索的,如图像的背景和遮挡。如何识别并提取输入样本的重要部分,免受噪声区域的影响,是所有检索系统面临的挑战。本文我们采用注意力模型来提升特征提取的效果。具体而言,本文构建了两个基于神经网络利用特征度量关系进行检索的系统:基于注意力的服装图像检索系统,能很好地完成服装图像的同域和跨域检索任务;基于通用性注意力的跨模态检索系统,主要解决图像和文本两种模态间... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:89 页

【学位级别】:硕士

【部分图文】:

基于注意力网络的度量学习研究及应用


–3学习图像和文本度量关系的两支网络[27]

循环神经网络,注意力,文本,示例


在循环神经网络循环生成目标语言的过程中,每一个时序中,神经网络都对输入文本的不同区域给予了不同的关注权重,从而有注意力的关注下进行当前词语的生成。模型实际效果如图1–41所示。在文本摘要生成领域,[29] 除了加入了注意力模型辅助模型的识别外,还专门针对输入的长文本将识别模型转换为长短期记忆网络,使得模型能够在迭代的过程中不丢失早期的输入信息。在图像处理领域,[10] 设计了一个视觉注意力模型来帮助提升物体识别的准确率,该注意力模型是基于一个被训练用来关注输入图像最重要区域的循环神经网络,最终能够识别和定位输入图像中的多个物体,其性能超越了同期的无注意力卷积神经网络。在视觉注意领域,最经典的工作 [11] 提出了一个基于注意力模型的图像标注生成模型

网络结构图,网络结构,整体理解,时序信息


之后会依次对自己感兴趣的区域进行更细致的观察,从而得到对于图片的整体理解。像这类有持续性的信息在传统的卷积神经网络中是很难有效处理的,[37] 提出了基于网络内部循环的 RNN,使得神经网络可以处理时序信息。如图2–4所示1,右图是RNN 在时序上的展开形式,可以视为一个网络的多阶段复制,这种链式的结构是 RNN能够处理连续序列类型数据的基础,而 RNN 在自然语言处理、语音识别、翻译、图片描述、视频描述等领域的广泛应用也证明了这一结构的有效性。1http://colah.github.io/posts/2015-08-Understanding-LSTMs— 11 —


本文编号:2955797

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2955797.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c9432***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com