基于视觉注意的图像描述生成研究
发布时间:2021-01-04 23:31
图像描述生成是最近几年来十分热门的研究方向,是一个多模态的问题,包含了计算机视觉和自然语言处理两大领域。本文通过模拟人类的注意力机制,研究提取视觉显著特征的方法,最后借助编解码框架生成图像句子描述。本文首先研究多解码器融合的注意力图像描述生成模型,然后以此为基础,利用策略梯度对模型进行优化、利用区分性引导在优化后的模型上研究相似图像内容的不同句子描述。在MSCOCO图像描述数据集上的实验证明了论文研究的图像描述方法的性能。本文主要研究内容如下:1)针对现有图像描述方法大多难以充分利用空间和目标特征,导致图像描述不足以反映图像丰富内容的问题,论文研究空间注意力和目标注意力提取显著特征,并将其分别引入到多层解码器融合架构,提出基于多解码器融合的注意力图像描述生成方法。多层解码器由全局解码层、目标解码层和空间解码层三层组成,并形成层层递进的解码结构。对于目标注意力显著特征是将空间整体特征、目标特征以及全局解码器隐藏状态信息输入到目标注意力层生成的,然后将其输入到目标解码器获得局部目标特征解码;对于空间注意力显著特征是将目标整体特征、空间特征、目标注意力特征以及目标解码器隐藏状态信息输入到空间...
【文章来源】:苏州大学江苏省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2-1基于多解码器融合的注意力图书描述生成框架??
基于视觉注意的图像描述生成研宄?第二章基于多解码器融合的注意力图像描述生成方法??有16层,如图2-2所示,它所提出的特征更加的鲁棒,具有更强的表达能力。??微软研宄所的何凯明等人[41]接着提出了?ResNet网络,训练了?152层的神经网络,??取得了?2015年ImageNet分类任务的冠军,同时参数比VGG网络更低。ResNet创造??性的在网络中加入了直连通层,如图2-3所示,可以直接将输入信息跳过一层或几层??往下传输,从而解决信息传递的信息丢失以及由于模型太深带来的梯度消失问题。论??文采用在ImageNet上预训练的ResNetlOl网络结构提取图像空间特征,提取的是??ResNet网络最后一层卷积层的特征,这一层特征既有一定语义信息,又能够包含很多??的图像空间特征。??■?■■■■■??〇?〇?^?n?〇?^?〇?〇?〇?^?〇?〇?〇?>*?o?n?o?^?t? ̄?c/5??I一?華華v?琴琴!卜>華學拳v?學華1?1一?華I華!g?31??图2-2?VGG?16结构图??X????Weight?layer??relu??Weight?layer??^4———??relu??图2-3残差块结构??2.2.2图像目标特征提取??图像中有着丰富的目标特征信息,这些特征信息对图像描述中的目标类的词生成??具有不可或缺的帮助,而目标检测的发展使得目标特征信息提取成为可能。目标检测??的任务是找出图像中感兴趣的目标,确定他们的位置,并将它们分类,但是由于各类??物体各有其特点,并且对于计算机而言,很难确定图像中目标的高层语义信息和他们??11??
基于视觉注意的图像描述生成研究?第二章基于多解码器融合的注意力图像描述生成方法??卷积层??特征图??Region?Proposal??Rol池化??边框回归?分类??图2-4?Faster?R-CNN总体结构图??2.3多解码器融合的注意力网络??图像描述生成是一个序列任务,对于t时刻,要生成单词vvt可以通过条件概率??,1^4,1)来表示,其中I为图像特征。它的输入为图像以及当前时刻的词向??量,如何能够从复杂的图像特征中抽取有用的信息成为关键因素之一。注意力机制的??本质为计算特征的概率分布,并对特征进行加权求和,获得注意力特征图,对于所需??要的显著特征赋予更大的权值。本章使用了两种注意力机制来过滤图像中的噪声,一??种称之为空间注意力机制,一种称之为目标注意力机制,并且通过这两种注意力机制??得到显著特征输入多层解码器融合架构中解码。本章使用三层LSTM解码器进行解??码,第-层LSTM解码器为全局解码器(Global?LSTM),获取关联之前单词的整体??上的一个特征表达,这一层LSTM获得特征比较粗糙。第二层LSTM称之为目标解??码器(Object?LSTM),主要解码的是目标注意力特征。第三层LSTM称之为空间解码??器(Spatial?LSTM),主要解码的是空间注意力特征,最终将三层LSTM的隐藏状态??输入到一个全连接层进行融合,输入到softmax中进行分类。本小节将首先介绍主流??的编解码结构,然后介绍使用的空间注意力层和目标注意力层提取显著特征过程,然??后详细讲述多层解码器融合架构的解码过程。??13??
【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
本文编号:2957560
【文章来源】:苏州大学江苏省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2-1基于多解码器融合的注意力图书描述生成框架??
基于视觉注意的图像描述生成研宄?第二章基于多解码器融合的注意力图像描述生成方法??有16层,如图2-2所示,它所提出的特征更加的鲁棒,具有更强的表达能力。??微软研宄所的何凯明等人[41]接着提出了?ResNet网络,训练了?152层的神经网络,??取得了?2015年ImageNet分类任务的冠军,同时参数比VGG网络更低。ResNet创造??性的在网络中加入了直连通层,如图2-3所示,可以直接将输入信息跳过一层或几层??往下传输,从而解决信息传递的信息丢失以及由于模型太深带来的梯度消失问题。论??文采用在ImageNet上预训练的ResNetlOl网络结构提取图像空间特征,提取的是??ResNet网络最后一层卷积层的特征,这一层特征既有一定语义信息,又能够包含很多??的图像空间特征。??■?■■■■■??〇?〇?^?n?〇?^?〇?〇?〇?^?〇?〇?〇?>*?o?n?o?^?t? ̄?c/5??I一?華華v?琴琴!卜>華學拳v?學華1?1一?華I華!g?31??图2-2?VGG?16结构图??X????Weight?layer??relu??Weight?layer??^4———??relu??图2-3残差块结构??2.2.2图像目标特征提取??图像中有着丰富的目标特征信息,这些特征信息对图像描述中的目标类的词生成??具有不可或缺的帮助,而目标检测的发展使得目标特征信息提取成为可能。目标检测??的任务是找出图像中感兴趣的目标,确定他们的位置,并将它们分类,但是由于各类??物体各有其特点,并且对于计算机而言,很难确定图像中目标的高层语义信息和他们??11??
基于视觉注意的图像描述生成研究?第二章基于多解码器融合的注意力图像描述生成方法??卷积层??特征图??Region?Proposal??Rol池化??边框回归?分类??图2-4?Faster?R-CNN总体结构图??2.3多解码器融合的注意力网络??图像描述生成是一个序列任务,对于t时刻,要生成单词vvt可以通过条件概率??,1^4,1)来表示,其中I为图像特征。它的输入为图像以及当前时刻的词向??量,如何能够从复杂的图像特征中抽取有用的信息成为关键因素之一。注意力机制的??本质为计算特征的概率分布,并对特征进行加权求和,获得注意力特征图,对于所需??要的显著特征赋予更大的权值。本章使用了两种注意力机制来过滤图像中的噪声,一??种称之为空间注意力机制,一种称之为目标注意力机制,并且通过这两种注意力机制??得到显著特征输入多层解码器融合架构中解码。本章使用三层LSTM解码器进行解??码,第-层LSTM解码器为全局解码器(Global?LSTM),获取关联之前单词的整体??上的一个特征表达,这一层LSTM获得特征比较粗糙。第二层LSTM称之为目标解??码器(Object?LSTM),主要解码的是目标注意力特征。第三层LSTM称之为空间解码??器(Spatial?LSTM),主要解码的是空间注意力特征,最终将三层LSTM的隐藏状态??输入到一个全连接层进行融合,输入到softmax中进行分类。本小节将首先介绍主流??的编解码结构,然后介绍使用的空间注意力层和目标注意力层提取显著特征过程,然??后详细讲述多层解码器融合架构的解码过程。??13??
【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
本文编号:2957560
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2957560.html
最近更新
教材专著