基于视觉注意的图像描述生成研究

发布时间：2021-01-04 23:31

　　图像描述生成是最近几年来十分热门的研究方向,是一个多模态的问题,包含了计算机视觉和自然语言处理两大领域。本文通过模拟人类的注意力机制,研究提取视觉显著特征的方法,最后借助编解码框架生成图像句子描述。本文首先研究多解码器融合的注意力图像描述生成模型,然后以此为基础,利用策略梯度对模型进行优化、利用区分性引导在优化后的模型上研究相似图像内容的不同句子描述。在MSCOCO图像描述数据集上的实验证明了论文研究的图像描述方法的性能。本文主要研究内容如下:1)针对现有图像描述方法大多难以充分利用空间和目标特征,导致图像描述不足以反映图像丰富内容的问题,论文研究空间注意力和目标注意力提取显著特征,并将其分别引入到多层解码器融合架构,提出基于多解码器融合的注意力图像描述生成方法。多层解码器由全局解码层、目标解码层和空间解码层三层组成,并形成层层递进的解码结构。对于目标注意力显著特征是将空间整体特征、目标特征以及全局解码器隐藏状态信息输入到目标注意力层生成的,然后将其输入到目标解码器获得局部目标特征解码;对于空间注意力显著特征是将目标整体特征、空间特征、目标注意力特征以及目标解码器隐藏状态信息输入到空间...

【文章来源】：苏州大学江苏省

【文章页数】：59 页

【学位级别】：硕士

【部分图文】：

基于视觉注意的图像描述生成研究

图２－１基于多解码器融合的注意力图书描述生成框架??

残差图,特征提取,残差,图像

基于视觉注意的图像描述生成研宄?第二章基于多解码器融合的注意力图像描述生成方法??有１６层，如图２－２所示，它所提出的特征更加的鲁棒，具有更强的表达能力。??微软研宄所的何凯明等人［４１］接着提出了?ＲｅｓＮｅｔ网络，训练了?１５２层的神经网络，??取得了?２０１５年ＩｍａｇｅＮｅｔ分类任务的冠军，同时参数比ＶＧＧ网络更低。ＲｅｓＮｅｔ创造??性的在网络中加入了直连通层，如图２－３所示，可以直接将输入信息跳过一层或几层??往下传输，从而解决信息传递的信息丢失以及由于模型太深带来的梯度消失问题。论??文采用在ＩｍａｇｅＮｅｔ上预训练的ＲｅｓＮｅｔｌＯｌ网络结构提取图像空间特征，提取的是??ＲｅｓＮｅｔ网络最后一层卷积层的特征，这一层特征既有一定语义信息，又能够包含很多??的图像空间特征。??■?■■■■■??〇?〇?＾?ｎ?〇?＾?〇?〇?〇?＾?〇?〇?〇?＞＊?ｏ?ｎ?ｏ?＾?ｔ?￣?ｃ／５??Ｉ一？華華ｖ？琴琴！卜＞華學拳ｖ？學華１?１一？華Ｉ華！ｇ?３１??图２－２?ＶＧＧ?１６结构图??Ｘ????Ｗｅｉｇｈｔ?ｌａｙｅｒ??ｒｅｌｕ??Ｗｅｉｇｈｔ?ｌａｙｅｒ??＾４———??ｒｅｌｕ??图２－３残差块结构??２．２．２图像目标特征提取??图像中有着丰富的目标特征信息，这些特征信息对图像描述中的目标类的词生成??具有不可或缺的帮助，而目标检测的发展使得目标特征信息提取成为可能。目标检测??的任务是找出图像中感兴趣的目标，确定他们的位置，并将它们分类，但是由于各类??物体各有其特点，并且对于计算机而言，很难确定图像中目标的高层语义信息和他们??１１??

结构图,注意力,解码器,结构图

基于视觉注意的图像描述生成研究?第二章基于多解码器融合的注意力图像描述生成方法??卷积层??特征图??Ｒｅｇｉｏｎ?Ｐｒｏｐｏｓａｌ??Ｒｏｌ池化??边框回归?分类??图２－４?Ｆａｓｔｅｒ?Ｒ－ＣＮＮ总体结构图??２．３多解码器融合的注意力网络??图像描述生成是一个序列任务，对于ｔ时刻，要生成单词ｖｖｔ可以通过条件概率??，１＾４，１）来表示，其中Ｉ为图像特征。它的输入为图像以及当前时刻的词向??量，如何能够从复杂的图像特征中抽取有用的信息成为关键因素之一。注意力机制的??本质为计算特征的概率分布，并对特征进行加权求和，获得注意力特征图，对于所需??要的显著特征赋予更大的权值。本章使用了两种注意力机制来过滤图像中的噪声，一??种称之为空间注意力机制，一种称之为目标注意力机制，并且通过这两种注意力机制??得到显著特征输入多层解码器融合架构中解码。本章使用三层ＬＳＴＭ解码器进行解??码，第－层ＬＳＴＭ解码器为全局解码器（Ｇｌｏｂａｌ?ＬＳＴＭ），获取关联之前单词的整体??上的一个特征表达，这一层ＬＳＴＭ获得特征比较粗糙。第二层ＬＳＴＭ称之为目标解??码器（Ｏｂｊｅｃｔ?ＬＳＴＭ），主要解码的是目标注意力特征。第三层ＬＳＴＭ称之为空间解码??器（Ｓｐａｔｉａｌ?ＬＳＴＭ），主要解码的是空间注意力特征，最终将三层ＬＳＴＭ的隐藏状态??输入到一个全连接层进行融合，输入到ｓｏｆｔｍａｘ中进行分类。本小节将首先介绍主流??的编解码结构，然后介绍使用的空间注意力层和目标注意力层提取显著特征过程，然??后详细讲述多层解码器融合架构的解码过程。??１３??

【参考文献】：
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)

本文编号：2957560

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/2957560.html

上一篇：基于深度学习的唇语识别技术研究
下一篇：基于深度神经网络的动态手势识别技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|