基于注意力机制的图像描述生成技术研究
发布时间:2021-03-22 13:09
图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域具有较强的实用价值。近年来,针对如何高效利用图像卷积特征以生成更好的描述语句成为图像描述生成任务的重要研究方向。本文在当前图像描述生成方法的基础上,从特征组合以及高级语义信息的利用上进行了相关研究:1)基于类激活映射机制的图像描述生成方法。本文在现有图像描述生成框架中引入类激活映射机制,提出了基于类激活映射注意力机制的图像描述生成框架(Class Activation Mapping-Attention,CAMA),在生成单词与卷积特征之间建立联系,以实现卷积特征能够与生成单词更好的语义对齐。与其他使用基于空间的特征表达不同,在注意力机制计算之前,就对卷积特征进行组合以得到更合适准确的特征表达,在当前软注意力框架基础上引入类激活映射机制,利用类激活映射机制重新组合由卷积神经网络得到的图像卷积特征。而在图像描述生成部分,为了使解码模块适应类激活映射机制算法,采用双层长短时记忆网络,充分利用图像的全局特征和局部特征,有效提高模型的...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
神经网络Figure1-1Modelstructur
崛∧芰σ驳玫搅思?蟮脑銮浚?虼薘esNet应用广泛。现在ResNet系列主要流行的结构有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152等。2.1.2循环神经网络循环神经网络(RecurrentNeuralNetworks,RNNs)[52]是一类用于处理序列数据的神经网络,广泛的用于自然语言处理的任务中,例如文本生成、机器翻译等任务[53]。1)RNN网络RNN是一类具有记忆能力的神经网络,与前向神经网络(ForwardNeuralNetwork,FNNs)只接受其他神经元的输入不同,RNN网络的神经元还可以接受自身的信息(通常是上一时刻的网络输出),如图2-4所示,RNN能够形成具有环路的网络结构。当RNNs在有限时间上展开,这等价于每一个层之间拥有相同权值的前馈网络。图2-4循环神经网络Figure2-4Recurrentneuralnetwork在图中,当输入为时,可以得到输出为,当输入为时,我们不仅要考虑当前的输入,还需要考虑到之前的输出,这就需要RNN记住之前的状态,最终根据当前输入以及前一时刻的输出得到了当前的输出。传统RNN网络结构解决了序列任务前后输入的依赖问题,但梯度消失的问题限制了其应用范围。RNN的参数更新是依靠反向传播算法来进行的,如果前向计算中相互影响的状态,反向传播的参数更新也需要能够相互影响。而如果梯度值较小,相隔一定步数的状态因为梯度太小,相互之间就不能产生影响。RNN不能解决长时依赖的问题,对于长序列建模能力不佳。2)LSTM为了解决传统RNN的长时依赖问题,Hochreiter和Schmidhuber提出了RNN网络的一个变体,长短时记忆网络(LongShort-TermMemory,LSTM)[54]。LSTM使得循环网络能够在有较长计算步数的条件下学习,从而是长序列远程连接成为可能,也因此在机器翻译、语音识别等多个应用领域得到了广泛的应用。其结构
3基于类激活映射-注意力机制的图像描述生成213.1类激活映射机制(ClassActivationMappingMechanism)3.1.1全局平均池化在图像分类任务中,通常使用全连接层分类,全连接层之前则是提取图像特征。全连接网络一直以来是基于卷积神经网络(CNN)的分类网络的标配结构,通常是将卷积特征转换为各个类别的概率分布向量,如果在某个类别的位置该值较大,那么是某个类别的可能性就大,如果值小那么是某个类别的可能性就校如图3-1(a)所示,将卷积得到的二维特征图伸展成一维向量,再由全连接网络对这个向量做矩阵乘法,最终降低其维度,转化为概率类别分布向量。全连接层存在着很多问题,例如参数量过大,降低了训练的速度,并且容易造成过拟合等问题。图3-1(b)中的全局平均池化(GlobalAveragePooling,GAP)则通过对每一个特征图计算平均值,大大降低了模型参数数量。GAP的引入降低了需要训练的参数数量,一定程度上具有正则化的作用,同时使得不同的特征图与类别具有明确的关联信息。因此Lin等人[69]提出将卷积神经网络中的全连接层替换为全局平均池化,将特征权重矩阵映射后经过一个Softmax层即可进行分类。此外,Zhou等人[22]的论文表明,GAP不仅仅有正则化的作用,还能够将卷积层的定位能力一直保持到最后一层。在图片的类别标签上训练,CNN有着卓越的目标定位能力,能够区分判别图像区域。例如,对于包含猫的图片来说,特征图上面的耳朵、鼻子等地方的概率值就会比较大。而且这种网络的训练是端到端的,只需要训练分类的网络,我们就可以在前向传播的时候获取目标定位的信息。(a)全连接层(b)全局平均池化图3-1全连接层和全局平均池化层Figure3-1Fullyconnectedlayerandglobalaveragepooling3.1.2类激活映射基于上述的研究?
【参考文献】:
期刊论文
[1]图像的文本描述方法研究综述[J]. 马龙龙,韩先培,孙乐. 中文信息学报. 2018(04)
[2]基于词向量特征的循环神经网络语言模型[J]. 张剑,屈丹,李真. 模式识别与人工智能. 2015(04)
博士论文
[1]融合文本信息的图像分类和标注关键问题研究[D]. 杨柳.北京交通大学 2016
[2]大数据检索及其在图像标注与重构中的应用[D]. 戴礼灿.中国科学技术大学 2013
硕士论文
[1]基于图像的文本自动生成关键技术研究[D]. 莫凌波.北京邮电大学 2019
[2]基于深度学习的图像描述生成[D]. 楼佳珍.西安电子科技大学 2018
[3]基于深度学习的图像语义标注与描述研究[D]. 郑永哲.广西师范大学 2017
[4]图像描述文本自动生成方法研究[D]. 申永飞.重庆大学 2017
[5]基于卷积神经网络的图像分类方法研究[D]. 谢宝剑.合肥工业大学 2015
本文编号:3094056
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
神经网络Figure1-1Modelstructur
崛∧芰σ驳玫搅思?蟮脑銮浚?虼薘esNet应用广泛。现在ResNet系列主要流行的结构有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152等。2.1.2循环神经网络循环神经网络(RecurrentNeuralNetworks,RNNs)[52]是一类用于处理序列数据的神经网络,广泛的用于自然语言处理的任务中,例如文本生成、机器翻译等任务[53]。1)RNN网络RNN是一类具有记忆能力的神经网络,与前向神经网络(ForwardNeuralNetwork,FNNs)只接受其他神经元的输入不同,RNN网络的神经元还可以接受自身的信息(通常是上一时刻的网络输出),如图2-4所示,RNN能够形成具有环路的网络结构。当RNNs在有限时间上展开,这等价于每一个层之间拥有相同权值的前馈网络。图2-4循环神经网络Figure2-4Recurrentneuralnetwork在图中,当输入为时,可以得到输出为,当输入为时,我们不仅要考虑当前的输入,还需要考虑到之前的输出,这就需要RNN记住之前的状态,最终根据当前输入以及前一时刻的输出得到了当前的输出。传统RNN网络结构解决了序列任务前后输入的依赖问题,但梯度消失的问题限制了其应用范围。RNN的参数更新是依靠反向传播算法来进行的,如果前向计算中相互影响的状态,反向传播的参数更新也需要能够相互影响。而如果梯度值较小,相隔一定步数的状态因为梯度太小,相互之间就不能产生影响。RNN不能解决长时依赖的问题,对于长序列建模能力不佳。2)LSTM为了解决传统RNN的长时依赖问题,Hochreiter和Schmidhuber提出了RNN网络的一个变体,长短时记忆网络(LongShort-TermMemory,LSTM)[54]。LSTM使得循环网络能够在有较长计算步数的条件下学习,从而是长序列远程连接成为可能,也因此在机器翻译、语音识别等多个应用领域得到了广泛的应用。其结构
3基于类激活映射-注意力机制的图像描述生成213.1类激活映射机制(ClassActivationMappingMechanism)3.1.1全局平均池化在图像分类任务中,通常使用全连接层分类,全连接层之前则是提取图像特征。全连接网络一直以来是基于卷积神经网络(CNN)的分类网络的标配结构,通常是将卷积特征转换为各个类别的概率分布向量,如果在某个类别的位置该值较大,那么是某个类别的可能性就大,如果值小那么是某个类别的可能性就校如图3-1(a)所示,将卷积得到的二维特征图伸展成一维向量,再由全连接网络对这个向量做矩阵乘法,最终降低其维度,转化为概率类别分布向量。全连接层存在着很多问题,例如参数量过大,降低了训练的速度,并且容易造成过拟合等问题。图3-1(b)中的全局平均池化(GlobalAveragePooling,GAP)则通过对每一个特征图计算平均值,大大降低了模型参数数量。GAP的引入降低了需要训练的参数数量,一定程度上具有正则化的作用,同时使得不同的特征图与类别具有明确的关联信息。因此Lin等人[69]提出将卷积神经网络中的全连接层替换为全局平均池化,将特征权重矩阵映射后经过一个Softmax层即可进行分类。此外,Zhou等人[22]的论文表明,GAP不仅仅有正则化的作用,还能够将卷积层的定位能力一直保持到最后一层。在图片的类别标签上训练,CNN有着卓越的目标定位能力,能够区分判别图像区域。例如,对于包含猫的图片来说,特征图上面的耳朵、鼻子等地方的概率值就会比较大。而且这种网络的训练是端到端的,只需要训练分类的网络,我们就可以在前向传播的时候获取目标定位的信息。(a)全连接层(b)全局平均池化图3-1全连接层和全局平均池化层Figure3-1Fullyconnectedlayerandglobalaveragepooling3.1.2类激活映射基于上述的研究?
【参考文献】:
期刊论文
[1]图像的文本描述方法研究综述[J]. 马龙龙,韩先培,孙乐. 中文信息学报. 2018(04)
[2]基于词向量特征的循环神经网络语言模型[J]. 张剑,屈丹,李真. 模式识别与人工智能. 2015(04)
博士论文
[1]融合文本信息的图像分类和标注关键问题研究[D]. 杨柳.北京交通大学 2016
[2]大数据检索及其在图像标注与重构中的应用[D]. 戴礼灿.中国科学技术大学 2013
硕士论文
[1]基于图像的文本自动生成关键技术研究[D]. 莫凌波.北京邮电大学 2019
[2]基于深度学习的图像描述生成[D]. 楼佳珍.西安电子科技大学 2018
[3]基于深度学习的图像语义标注与描述研究[D]. 郑永哲.广西师范大学 2017
[4]图像描述文本自动生成方法研究[D]. 申永飞.重庆大学 2017
[5]基于卷积神经网络的图像分类方法研究[D]. 谢宝剑.合肥工业大学 2015
本文编号:3094056
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3094056.html