基于对抗学习的图像字幕生成关键问题研究

发布时间：2021-11-07 14:04

　　图像字幕生成就是根据输入图像生成一段内容描述语句,该任务涉及图像处理方法和自然语言处理方法。近年来随着互联网的发展和大规模数据的出现,深度神经网络凭借着强大的数据拟合能力在多个研究领域获得了巨大的成功。在此背景下,将深度学习方法应用于字幕生成任务逐渐成为图像字幕生成研究领域中主流的方法。在已经提出的方法中,算法优化的重点大多集中于对图像特征的处理,然而仅仅通过优化图像特征质量只能提升生成文本与图像关键信息的紧密度,而缺乏了对生成文本本身的优化,无法让生成的文本更加符合自然语言的使用标准。一方面,对于图像字幕生成过程中存在的文本准确性和连贯性不足的问题,本文提出一种基于长短时间隔优化的图像字幕生成方法。该方法使用深度神经网络提取图像特征,将图像关键信息以特征矩阵的形式表示并结合图像标注字幕作为LSTM循环单元的输入。在字幕生成过程中,使用长时间隔优化模块和短时间隔优化模块共同优化生成文本的质量。其中长时间隔优化模块由长时间隔优化器和激励判别器两部分组成,通过对抗训练的方式对生成文本的质量进行优化。短时间隔优化模块则以监督学习的方式对生成文本进行优化,通过约束生成文本在短语和单词上的使用使...

【文章来源】：合肥工业大学安徽省 211工程院校教育部直属院校

【文章页数】：60 页

【学位级别】：硕士

【部分图文】：

基于对抗学习的图像字幕生成关键问题研究

中每个输入根据不同的权重输入神经单元，结合偏置计算输出，计算公式见式(2.1)，其中b为偏置项

矩阵图,卷积核,卷积,矩阵

第二章图像字幕生成基本知识介绍9矩阵，该矩阵就是卷积层对输入矩阵的卷积计算结果。图2.2所示的输入矩阵是单通道的简单矩阵，而图像在计算机中一般使用RGB三通道的矩阵表示，对于多通道的图像数据卷积层的操作如图2.3。图2.3中卷积核分别对三个通道的矩阵执行卷积操作，然后在将同位置的结果取均值，最终得到输出结果。图像矩阵在卷积后将不同通道的信息合并为一，由于实际图像所携带的信息量非常大，单个卷积核组成的卷积层无法有效的提取图像多方面的属性信息。因此在单个卷积层中使用多个参数不同的卷积核对同一副图像进行卷积处理并得到多通道的输出结果是常用的方法。卷积操作除了卷积核中的计算参数需要设置外，卷积核在输入矩阵上的移动方式、每次移动的幅度以及输入矩阵的填充方式也需要通过参数来控制。考虑到卷积核是有一定大小的，其中心无法移动到输入矩阵的边缘，因此为了增强卷积层对输入矩阵边缘的处理，计算中可以选择使用“零值填充”的方式填充输入矩阵的外围以便于卷积核的中心可以移动到边缘进行计算。移动幅度参数则影响到卷积计算的精细度、输出矩阵的尺寸和计算的复杂度，移动幅度越大，计算速度越快，计图2.2卷积计算过程Fig2.2Theprocessofconvolution图2.3三通道图像卷积计算Fig2.3Theconvolutionofthreechannelimage

矩阵图,矩阵,范围,卷积

合肥工业大学学术硕士研究生学位论文10算量越小，计算的精细度越差。2.4.1.2采样层在卷积操作中为了保证计算结果能够有效反映图像中的多种特征，一般会在网络中设置多层卷积层且每个卷积层中包含多个不同的卷积核，而这就会产生一些问题。一方面，大量的卷积计算使得模型的计算量过大，神经网络训练速度减慢并且神经网络对计算机的硬件环境提出了更高的要求。另一方面，大量卷积核的应用可能会使神经网络对输入数据过度拟合，降低网络的扩展性能。采样层就是为了解决计算量过大和网络过拟合问题而提出的。在多层卷积神经网络中，一般在每一层的卷积层后紧跟着采样操作，从采样方式上可以分为极大值采样和均值采样两类。极大值采样的计算过程如图2.4。采样首先需要确定采样范围，图2.4中选取2×2矩阵为采样范围。接着与卷积计算过程类似，2×2大小的矩阵在输入矩阵上移动。每次从采样矩阵范围内选取极大值进行采样，当采样矩阵遍历输入矩阵后得到的输出矩阵即为采样结果。采样的另一种方式为均值采样，和极大值采样不同的是均值采样在每个采样范围内取图2.4极大值采样计算过程Fig2.4Theprocessofmaximumsampling图2.5均值采样计算过程Fig2.5Theprocessofmeansampling

【参考文献】：
期刊论文
[1]融合约束学习的图像字幕生成方法[J]. 杜海骏,刘学亮. 中国图象图形学报. 2020(02)

本文编号：3481987

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3481987.html

上一篇：基于正交元空间的多模态图像增强技术研究
下一篇：基于物联网的光学仪器远程控制系统

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|