基于注意力长短时记忆网络的图像描述算法研究

发布时间:2022-02-15 07:24
  图像描述旨在把一幅图像的内容翻译为人类能够理解的自然语句,这与图像分类、目标检测等粗粒度的图像理解任务有一定的区别。图像描述任务不仅需要模型识别出图像中的目标、场景、属性等信息,还需要模型能够理解它们之间的关系,因此具有很大的挑战性,在婴幼儿早期教育、图像检索、辅助视觉障碍人士等方面具有极为广阔的应用。近年来,由于深度学习的发展及编码器-解码器框架在机器翻译领域中的有效应用,基于编码器-解码器框架下的图像描述任务得到快速发展。本文的主要工作如下:(1)提出了基于注意力长短时记忆网络的图像描述算法。针对长短时记忆网络中各个时刻获取信息不准确的问题,我们提出了注意力长短时记忆网络,该网络使用上一时刻隐藏层的信息控制当前时刻的输入信息;同时我们将注意力长短时记忆网络与四种经典图像描述模型框架相结合并在图像描述数据集上进行实验,验证了注意力长短时记忆网络对图像描述任务的有效性。(2)提出了基于目标区域注意力机制的图像描述算法。通过研究图像描述算法,我们发现图像各个子区域中包含清晰的语义目标信息更能提升图像描述的准确性,因此能否正确获取图像中的目标区域信息是图像描述的关键。在基于注意力长短时记忆... 

【文章来源】:湘潭大学湖南省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于注意力长短时记忆网络的图像描述算法研究


戴着运动帽的小女孩正在球场上打网球

结构图,神经元,结构图,卷积


7第2章基于深度学习的图像描述算法的理论基础基于深度学习方法的图像描述算法主要包括图像编码和文本生成两个部分。图像编码主要利用深度卷积神经网络,生成文本时主要利用循环神经网络。下面主要介绍其基本原理,同时也将介绍图像描述任务使用的数据集及评价指标。2.1深度卷积神经网络2.1.1深度神经网络基本理论深度学习是在1958年人们对人工神经网络的探究发展而来的,人工神经网络由多个神经元组合而成。图2.1所示为单个神经元的结构图:图2.1单个神经元结构图其中1nxx代表输入向量值,b代表单个神经元的偏置值,1nwwD代表输入向量的权重值,h是输出向量,计算公式为:()ThfWxb(2.1)图2.1中y代表“感知器”即计算单元,神经元首先对输入向量和输入向量对应的权重进行点积运算,然后通过激活函数输出计算结果,人工神经网络是由多个这样的神经元结构组成的。DCNN网络是由人工神经网络改进得到的,DCNN网络主要将人工神经网络的隐藏层分为多个卷积层和池化层。DCNN网络有着强大的图像表征能力,在许多领域都有广泛的应用。(1)卷积层在DCNN网络中,卷积层主要是利用多种卷积核在图像上实行平移计算操作获得图像的视觉特征,卷积层的操作主要是两个矩阵的乘加运算。如下图2.2所示为卷积层的操作的过程,图像最左侧的矩阵是输入矩阵,中间矩阵代表的是卷积核(过滤器),卷积核的步长是1,卷积后的结果为图中最右侧的矩阵。

示意图,卷积,示意图,卷积核


8图2.2卷积层的操作示意图卷积核的作用是获取表征图像的特征,为获取到丰富的图像特征,在DCNN网络中通常会使用多个卷积核提取图像的特征,每个卷积核都会输出与之对应的特征图。卷积层的两大特性是:局部感受野与权值共享。局部感受野的主要作用是获取表征图像的初级特征,权值共享的作用是减少参数量,缩小DCNN网络的训练和学习时间。(2)池化层池化操作是DCNN网络的重要构成部分,池化的作用为降采样。池化层用在卷积层之后,主要是对卷积层的输出进行降采样。池化操作第一步是将卷积层输出的特征划分为对应大小区域,然后再对每个区域单独进行池化。池化操作使用的非线性池化函数有多种形式,最常用的为“最大池化(MaxPooling)”,即求相应区域的最大值。池化操作的作用除降维外,其另一个主要作用为防止过拟合。图2.3展示了某一深度上的特征在步长大小为2,通过2*2大小的过滤器并采用“最大池化”函数得到降维的特征的过程:图2.3最大池化过程示意图(3)激活函数激活函数的功能是让DCNN网络拥有非线性建模的本领,使模型可以拟合任何函数映射,它是DCNN网络处理非线性问题不可或缺的操作。DCNN网络中卷积操

【参考文献】:
期刊论文
[1]基于多注意力多尺度特征融合的图像描述生成算法[J]. 陈龙杰,张钰,张玉梅,吴晓军.  计算机应用. 2019(02)

硕士论文
[1]基于区域注意力机制的图像描述算法[D]. 吴黄子桑.武汉大学 2018



本文编号:3626189

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3626189.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc126***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com