基于生成式对抗网络图片生成文字的研究

发布时间：2021-03-10 04:37

　　近年来,随着深度学习的发展,以及硬件设备技术的不断突破,基于人工智能的应用遍地开花,大量研究人员对这项技术都产生了浓厚兴趣。例如人脸识别、人脸生成、换脸技术、目标检测与跟踪、场景分割、自动驾驶、行人重识别、语音识别等等。而图像理解Image Caption是一个综合类问题。它不仅需要自然语言处理技术,还需要计算机视觉方向的图像处理技术。具体来说这项技术需要同时处理图像数据和文本数据。图像理解算法既要用计算机视觉方法来提取图像特征及其相关关系,而且还需要生成文本描述出来。更关键的是,模型还要能够抓住图像中的语义内容,生成真实的、自然的文本描述。图像理解方法普遍是基于编码器-解码器结构,其中编码器大多由提取图像特征的卷积神经网络构成。解码器则通过循环神经网络构成,它的作用是生成描述性的文本。本文针对当前基于图像理解研究存在的主要问题进行了下列主要工作:（1）由于RNN存在梯度消失的问题,而通过对RNN进行改进得到一种特殊结构的长短时记忆网络LSTM,这种网络通过其自身的门控结构,能有效解决RNN引起的梯度消失问题,所以本文在解码端使用LSTM长短时期记忆网络的方法生成文本描述。但是基于该方...

【文章来源】：电子科技大学四川省 211工程院校 985工程院校教育部直属院校

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

基于生成式对抗网络图片生成文字的研究

基于CNN-RNN图像生成文字的方法

函数图像,函数图,导数,梯度

第二章图像理解的基础92.1.3梯度消失和梯度膨胀神经网络训练经常出现的问题有梯度消失和梯度爆炸，出现梯度消失时，会导致梯度更新缓慢，模型无法从训练数据中获得更新，损失几乎保持不变。而出现梯度爆炸时，会导致模型无法收敛，不稳定，更新过程中的损失会出现显著变化，训练过程中，模型损失变为NaN。梯度消失经常出现在深层网络中，另一种是采用了不合适的损失函数，比如sigmoid激活函数。梯度爆炸一般出现在深层网络中以及权值初始化太大的情况下，下面分别从这两个方面分析梯度消失和爆炸的原因。梯度爆炸是对激活函数进行求导，当网络层数增多时，如果导数部分大于1，梯度更新将以指数形式增加。梯度消失时，对激活函数求导，其值小于1，当层数很深时，梯度将以指数形式衰减。解决梯度消失和梯度爆炸的主要方案是使用别的激活函数，例如relu以及leakyrelu等激活函数。使用Relu时，激活函数的导数为1，那么就不存在梯度消失爆炸的问题了，每层的网络都可以得到相同的更新速度，relu就这样应运而生。公式(2-1)为relu的数学表达式：0,0,0),0max()(eluxxxxxR（2-1）其函数图像及其导数图像如图2-1所示：图2-1Relu的函数图及其导数图像可以很容易看出，relu函数的导数在正数部分是恒等于1的。在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。relu的主要贡献在于：(1).解决了梯度消失、爆炸的问题。(2).计算方便，计算速度快。(3).加速了网络的训练。同时relu也存在一些缺点：由于负数部分恒为0，会导致一些神经元无法激活（可通过设置小学习率部分解决）。另外一种激活函数Leakyrelu为了解决relu的0区间带来的影响，其数学表达

残差图,残差,单元,卷积

电子科技大学硕士学位论文10为：leakrelu=max(kx,x)，其中k是leaky系数，一般选择0.01或者0.02，或者通过学习而来，Leakyrelu解决了0区间带来的影响，而且包含了relu的所有优点,其表达式为公式(2-2)所示：otherwisexexxlu),1(0,x)(re（2-2）其函数图像如下图2-2所示：图2-2leakyrelu函数图及其导数图另一种方法是使用残差结构，其中残差单元如下图2-3所示：图2-3残差网络的单元结构以上就是卷积神经网络训练中比较常用到的方法，通过卷积神经网络我们可以有效地进行训练，提取需要的图像特征，将获得的向量输入到自然语言处理的算法中来完成图像理解的过程。2.2生成式对抗网络的介绍生成式对抗网络是由蒙特利尔大学的IanGoodFellow提出来的一种基于零和博弈论的方法。原始的生成式对抗网络主要是用于逼真图片的生成。而在本文中，

【参考文献】：
博士论文
[1]基于深度学习的图像描述算法研究[D]. 朱欣鑫.北京邮电大学 2019

硕士论文
[1]基于深度学习的内容自动生成[D]. 韩易.华东师范大学 2019
[2]基于深度学习的图像语义理解研究[D]. 梁欢.重庆大学 2016

本文编号：3074063

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3074063.html

上一篇：基于文本聚类的垂直搜索引擎系统设计与实现
下一篇：基于OSVOS的单目标和多目标视频前景提取算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|