基于深度学习的图像描述生成研究
发布时间:2021-04-09 01:51
图像描述生成的目标是对图像生成关于图像内容的连贯流畅的自然语言描述句子,结合了图像识别领域与自然语言处理领域,对互联网中图像信息的检索、儿童的早期教育与视障人士的生活辅助等方面有重要的意义。现有的图像描述生成模型大多基于深度学习编码-解码框架,采用卷积神经网络(CNN)作为提取图像特征的编码器,采用循环神经网络(RNN)作为生成自然语言描述的解码器。但采用编码-解码框架的模型大多存在编码过程中CNN提取到的特征图不足以获取图像中所含的大量信息、解码过程中图像信息会随着RNN时间步向前占比越来越小等问题。为了解决上述问题,本文在编码-解码框架基础上设计了额外的图像语义网络,图像语义网络产生的图像语义层不仅补充了编码器获取不充分的图像信息,还可以在解码过程中弥补逐渐弥散的图像信息;设计了语义注意力机制,使模型能够在预测单词时将注意力聚焦到图像语义层中对应单词向量。具体工作如下:(1)基于深度学习引入图像语义网络的图像描述生成模型-ESRNN。ESRNN模型基于NIC模型设计,首先用一个CNN作为编码器提取图像特征,然后根据训练集已有的图像描述为每张图像产生多标签,在基础模型中加入另一个CN...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图2-1编码?解码框架??Figure?2-1?The?encoder-decoder?freamwork??
在前向传播时,每个滤波器都在输入数据的高度和宽度上滑动,在每个位置??为整个滤波器和输入数据计算内积。当一组滤波器滑动完整个输入数据后,生成??一个二维的激活图(activation?map)作为输出,卷积操作如图2-2所示。??激活图给出了在每个空间位置处滤波器做出的反应。通过激活图,滤波器会??学习到当它遇到不同图像特征时要做出何种激活操作,具体的图像特征可能是某??个形状,某处边界等。把每个滤波器产生的激活图在深度上叠加起来,获得输出??数据。??9??
图2-3池化操作??
本文编号:3126680
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图2-1编码?解码框架??Figure?2-1?The?encoder-decoder?freamwork??
在前向传播时,每个滤波器都在输入数据的高度和宽度上滑动,在每个位置??为整个滤波器和输入数据计算内积。当一组滤波器滑动完整个输入数据后,生成??一个二维的激活图(activation?map)作为输出,卷积操作如图2-2所示。??激活图给出了在每个空间位置处滤波器做出的反应。通过激活图,滤波器会??学习到当它遇到不同图像特征时要做出何种激活操作,具体的图像特征可能是某??个形状,某处边界等。把每个滤波器产生的激活图在深度上叠加起来,获得输出??数据。??9??
图2-3池化操作??
本文编号:3126680
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3126680.html