当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的图像描述算法研究

发布时间:2020-06-09 05:58
【摘要】:图像描述是一种对输入的图像,能够准确地生成描述图像内容文本的多模态任务。该任务除了需要利用计算机视觉技术外,也需要使用自然语言处理的相关技术。将图像内容转化为描述图像内容的文本,可以建立图像中对象之间的语义关系,加强对图像内容的深入理解。基于深度学习的编码器解码器框架虽然已为解决图像描述任务提供了一套解决方案,但是现有的方法还存在识别率不高等问题,主要体现在:1)对图像的空间区域信息利用程度不够;2)通过交叉熵损失函数训练得到的模型存在着训练阶段和测试阶段的偏置问题;3)基于递归神经网络的图像描述模型存在着训练并行度不高的问题。针对以上问题,本文提出了一系列的改进方案。本文研究内容包括基于多注意力机制和并行堆叠递归神经网络的图像描述算法,基于字典控制门和自适应自监督增强学习的图像描述算法,基于堆叠注意力机制和多级监督的图像描述算法。本文的主要创新工作如下:(1)基于多注意力机制和并行堆叠长短时记忆网络的图像描述模型。针对图像描述任务中,如何使描述文本在不同的时刻都能更加有效地利用图像局部信息的问题,提出了一种多注意力机制的改进方法。传统的注意力机制,仅仅考虑了如何在长短时记忆网络的输入阶段融合图像的局部信息,本文为了多阶段地融合图像的局部信息提出了一种多注意力机制图像描述模型。首先,该模型能够在长短时记忆网络的各个阶段,有效融合图像的局部特征信息。另外,在单词的生成阶段,所提出的模型也能够高效地利用图像局部特征。最后,为了解决长短时记忆网络对于历史信息建模不足的问题,本文提出了利用单词历史信息和图像本身的语义信息进行建模的方法。基于以上三项对注意力机制的改进,图像描述模型的性能得到了一定的提高。本文进一步提出了一种新的并行堆叠长短时记忆网络,同时进行了一系列的对比实验,相对于传统的堆叠长短时记忆网络,模型的性能得到了有效的提升。(2)基于字典控制门和自适应自监督增强学习的图像描述模型。图像描述任务是一种单词序列生成任务,由于传统的基于递归神经网络的训练方法是基于交叉熵损失函数,所以会导致模型存在训练阶段和测试阶段不一致的问题。为了解决该问题,本文提出了自适应自监督的增强学习方法。该方法相较于之前的方法,它的训练基准更加稳定。该方法与基于交叉熵损失函数的训练不同,它是通过一个奖励函数进行有效的训练。该奖励函数综合考虑了词汇之间的相似关系。在图像描述任务中,由于可能被选中的单词包含在整个字典之中,导致了增强学习的行为选择维度较高。为了降低行为选择的难度,本文进一步提出了一种基于字典控制门的机制。通过该机制,模型可以有效地缩小行为选择的空间,使得单词的生成,相当于在一个更加准确的单词范围之内进行选择。该方法可以进一步理解为减少了增强学习中行为空间的选择范围,有利于对增强学习进行更好的训练。除此之外,通过对比实验,验证了本文提出的方法,能够使得模型得到更好的性能,更加符合描述语句在应用中的实际情况。(3)基于堆叠注意力机制和多层级监督的图像描述模型。基于递归神经网络的图像描述算法,其当前单词需要利用历史已生成的单词逐个进行生成。在训练阶段,模型需要等待历史单词逐个生成之后,才能进行当前时刻单词的训练,该方式会导致模型训练出现历史依赖问题。为了改进该训练方式,本文提出了一种基于堆叠注意力机制图像描述模型。该模型相对于传统的基于递归神经网络的图像描述模型,包含了多头注意力模型和自注意力模型。该模型中包含的模块都能够有效进行并行训练。本文使用了类似深度卷积神经网络的方法,堆叠了更多的多头注意力模型和自注意力模型,并且引入了残差机制,使得深层次的网络也能够进行有效的训练。为了更加有效地对多层模型进行训练,本文提出了一种多层级监督的训练方法。该方法使得模型的不同层次都具有输出完整语义的能力。最后模型使用了平均池化层,来融合各个层次的输出。该方法相对于传统的最上层优化方法能够得到更优的性能。综上所述,本文对基于深度学习的图像描述算法进行了研究,针对已有模型的缺陷,提出了一系列的改进方案。实验结果表明,本文提出的图像描述算法相对于传统的方法,能够有效地提升图像描述算法的性能,解决以往图像描述算法的缺陷,同时能够更加准确地生成图像的描述文本。
【图文】:

结构图,递归神经网络,结构图


经网络[221为代表的达上百层的深度卷积网络。逡逑图像分类的飞速发展,也促进了计算视觉其它领域的快速发展,以深yL经网络为基础,图像检测、图像分割的性能也得到了飞速的提高,出现Faster-RCNN[81,Mask-RCNN117]在内的优秀算法,它们的性能己经能够达级别,并己经应用于自动驾驶等领域。逡逑1.3.2递归神经网络逡逑递归神经网络(RNN)是一种神经网络算法,它可以看作不同节点,连接的边生成一个有向图的过程。该结构使得它能够在时间序列上动态的不同的行为。相对于传统的前向反馈神经网络,该网络能够利用内部状态序列的输入。除此之外,,该结构也使得它能够应用于包括手写体识别和语等任务之中。逡逑

结构图,结构图,梯度,训练参数


逑一个基本的RNN如图]-1中左半部分所示,它包括内部状态/;^是模型的逡逑输入,0为模型的输出。RNN本身是一个迭代的过程,展开后为图1-1右半部分逡逑所示的结构,即模型的隐藏状态随着时刻的进行,需要不断的传递到下一时刻之逡逑中,它可以由公式(1-20),公式(1-21)进行表示:逡逑ht邋=邋ah(Whxt邋+逦+邋bh)逦(1-20)逡逑ot邋=邋Gt(W0ht邋+邋by)逦(1-21)逡逑其中/it代表了邋RNN在t时刻的隐藏状态,1^是RNN在t时刻的输入向量,0t表示逡逑模型的输出向量,?代表模型的训练参数,卟,%为模型的逡逑激活函数。逡逑由于传统的RNN存在梯度消失和梯度爆炸的问题,所以出现了克服该缺点逡逑的长短时记忆网络(Long邋Short-Term邋Memory,LSTM)邋[36]。LSTM能够有效地逡逑阻止反向传播中的梯度消失和梯度爆炸问题。LSTM为了更加有效地利用历史信逡逑息,提出了门的概念。逡逑如图1-2所不
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.41;TP183

【相似文献】

相关期刊论文 前10条

1 汤鹏杰;谭云兰;李金忠;;融合图像场景及物体先验知识的图像描述生成模型[J];中国图象图形学报;2017年09期

2 李晓莉;张慧明;李晓光;;多主题的图像描述生成方法研究[J];小型微型计算机系统;2019年05期

3 薛一鸣;周雪婧;周小诗;牛少彰;文娟;;基于图像描述的文本信息隐藏[J];北京邮电大学学报;2018年06期

4 张凯;李军辉;周国栋;;基于枢轴语言的图像描述生成研究[J];中文信息学报;2019年03期

5 周昌;郑雅羽;周凡;陈耀武;;基于局部图像描述的目标跟踪方法[J];浙江大学学报(工学版);2008年07期

6 杨楠;南琳;张丁一;库涛;;基于深度学习的图像描述研究[J];红外与激光工程;2018年02期

7 李亚栋;莫红;王世豪;周忠;吴威;;基于图像描述的人物检索方法[J];系统仿真学报;2018年07期

8 陶云松;张丽红;;基于双向注意力机制图像描述方法研究[J];测试技术学报;2019年04期

9 徐平;;探究曲线运动的图像描述[J];物理通报;2013年07期

10 吴娱;赵嘉济;平子良;杜昊翔;;基于指数矩的图像描述[J];现代电子技术;2013年14期

相关会议论文 前3条

1 莫华;张燕;岳粮跃;吴智辉;滕维中;;生物脏器渗流分支血管系统的分形特性[A];第四届西部十二省(区)市物理学会联合学术交流会论文集[C];2008年

2 杨秀秀;尹燕宁;徐素鹏;夏勇;印建平;;氟化镁分子的受激辐射力减速[A];第十七届全国量子光学学术会议报告摘要集[C];2016年

3 程士德;苏晶;;中医模式形成和特点剖析[A];中医药优秀论文选(上)[C];2009年

相关博士学位论文 前4条

1 朱欣鑫;基于深度学习的图像描述算法研究[D];北京邮电大学;2019年

2 汤进;基于图理论的图像描述与检索方法研究[D];安徽大学;2007年

3 顾广华;面向图像语义描述的场景分类研究[D];北京交通大学;2013年

4 曲智国;基于图理论的图像结构化描述与匹配方法研究[D];国防科学技术大学;2013年

相关硕士学位论文 前10条

1 赵德海;基于深度学习的视频事件检测的研究与应用[D];中国石油大学(华东);2017年

2 常智;基于深度学习的图像描述方法研究[D];天津理工大学;2019年

3 房超;基于图像高级语义与Attention融合的图像描述方法研究[D];辽宁大学;2018年

4 束炎武;基于多模态递归网络的图像描述研究[D];南京理工大学;2018年

5 倪梦s

本文编号:2704258


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2704258.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户886ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com