基于区域相关性与Attention的图像描述方法研究
发布时间:2021-01-25 20:56
最近十几年,大规模训练数据集以及高性能计算机硬件的出现带动了深度学习技术的迅速发展,深度学习技术在许多领域得到了广泛应用。随着互联网的快速发展以及摄像设备的普及,网络中的图片数量成几何倍增长,仅靠人力已无法对图片内容进行鉴别。所以,如何让计算机自动描述一副图像是当前图像理解领域的研究热点。该任务涉及到计算机视觉与自然语言处理两大人工智能领域,其基本原理就是对要描述的图像进行信息提取,识别出其中的人物,感知场景内容以及人物之间的关系,最后用一段逻辑语言表达出来。本文对近些年来图像描述方法在国内外的研究发展状况进行研究,研究中发现,传统的图像描述方法在提取图像特征信息的过程中忽视了图像中目标之间的相互依赖关系。本文提出了一种基于区域相关性的图像特征提取优化方法,将VGG与RPN结合起来进行图像特征提取和候选区域选取,对每一个候选区域计算它与其他所有区域的空间距离之和,以此作为该区域与其他区域总体相关性的度量,基于这个度量值来对候选区域对应在特征图上的部分进行加权优化,最终将加权优化后的图像特征图作为输入,送给语言模块参与文本的生成。然后,本文对Attention机制在图像描述任务中的应用进...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
Sigmoid激活函数针对Sigmoid函数的缺点,人们又提出了修正线性单元函数
图 2-5 ReLU 激活函数ReLU 函数会输出 0 与输入数据两者中的最大值,ReLU 函数看似是分段线性的,用于浅层网络其非线性表现能力弱,但用于深层网络,许多隐藏层神经元最后表现出来的就是非线性,类似于将一条曲线分成无限段,每一段近似于直线,组合起来就可以拟合曲线。ReLU 函数的导数也更简单,基于上述特性,ReLU 函数目前成为了主流的激活函数。2.2 循环神经网络循环神经网络(Recurrent Neural Network,RNN)是一类对时间显示建模的神经网络,正如 CNN 被广泛应用于图像问题,RNN 则被专门应用于序列化问题,RNN 的神经元与 CNN 一样接收来自其他神经元的输入,但是它与高低层皆可建立连接,RNN 的输出即与当前时刻的输入有关也与之前时刻的输出有关。因为循环神经网络具有参数共享、信息记忆、图灵完备的特点,所以它在时序性的
图 3-1 VGGNet16 的网络结构VGGNet16 大体上包含了 5 个大段,每个大段包含了 2 到 3 个卷积层,每个大段的后面会接一个池化层来降维采样,池化操作使用的过滤器都是 2×2 规格,步长都为 2,模型的最后是 3 个连续的全连接层加一个 softmax 层。VGGNet 在卷积层、特征图、全连接层三个方面具有很重要的特点,下面将从这些方面对其进行介绍。在卷积层上,它使用 3×3 的小卷积核,通过小卷积核串联的方式减小了参数规模,加快了模型的学习速度。例如对于输入为 8×8 的特征图,设步长 stride=1,如果是经过两个连续的 3×3 卷积层处理,其过程是这样:(8-3)/1+1=6,(6-3)/1+1=4,所得到的是 4×4 大小的特征图,如果是经过一个 5×5 的卷积层处理,其过程是这样:(8-5)/1+1=4,所得也是大小为 4×4 的特征图,两种情况获取到感受野相同,但是两个 3×3 的小卷积核参数量为 3×3×2=18,而一个 5×5 的大卷积核参数量为25,小卷积核串联的参数量更少。同样的道理,三个 3×3 的小卷积核能够获得与一个 7×7 的大卷积核相同的感受野而参数更少。此外,多个小卷积核的处理
【参考文献】:
期刊论文
[1]基于注意力反馈机制的深度图像标注模型[J]. 邓远远,沈炜. 浙江理工大学学报(自然科学版). 2019(02)
[2]基于多注意力多尺度特征融合的图像描述生成算法[J]. 陈龙杰,张钰,张玉梅,吴晓军. 计算机应用. 2019(02)
[3]结合视觉属性注意力和残差连接的图像描述生成模型[J]. 周治平,张威. 计算机辅助设计与图形学学报. 2018(08)
[4]基于GoogLeNet多阶段连带优化的图像描述[J]. 汤鹏杰,谭云兰,许恺晟,李金忠. 井冈山大学学报(自然科学版). 2016(05)
硕士论文
[1]结合视觉显著性及多特征表示的图像描述方法研究[D]. 刘丽莎.西安电子科技大学 2018
本文编号:2999883
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
Sigmoid激活函数针对Sigmoid函数的缺点,人们又提出了修正线性单元函数
图 2-5 ReLU 激活函数ReLU 函数会输出 0 与输入数据两者中的最大值,ReLU 函数看似是分段线性的,用于浅层网络其非线性表现能力弱,但用于深层网络,许多隐藏层神经元最后表现出来的就是非线性,类似于将一条曲线分成无限段,每一段近似于直线,组合起来就可以拟合曲线。ReLU 函数的导数也更简单,基于上述特性,ReLU 函数目前成为了主流的激活函数。2.2 循环神经网络循环神经网络(Recurrent Neural Network,RNN)是一类对时间显示建模的神经网络,正如 CNN 被广泛应用于图像问题,RNN 则被专门应用于序列化问题,RNN 的神经元与 CNN 一样接收来自其他神经元的输入,但是它与高低层皆可建立连接,RNN 的输出即与当前时刻的输入有关也与之前时刻的输出有关。因为循环神经网络具有参数共享、信息记忆、图灵完备的特点,所以它在时序性的
图 3-1 VGGNet16 的网络结构VGGNet16 大体上包含了 5 个大段,每个大段包含了 2 到 3 个卷积层,每个大段的后面会接一个池化层来降维采样,池化操作使用的过滤器都是 2×2 规格,步长都为 2,模型的最后是 3 个连续的全连接层加一个 softmax 层。VGGNet 在卷积层、特征图、全连接层三个方面具有很重要的特点,下面将从这些方面对其进行介绍。在卷积层上,它使用 3×3 的小卷积核,通过小卷积核串联的方式减小了参数规模,加快了模型的学习速度。例如对于输入为 8×8 的特征图,设步长 stride=1,如果是经过两个连续的 3×3 卷积层处理,其过程是这样:(8-3)/1+1=6,(6-3)/1+1=4,所得到的是 4×4 大小的特征图,如果是经过一个 5×5 的卷积层处理,其过程是这样:(8-5)/1+1=4,所得也是大小为 4×4 的特征图,两种情况获取到感受野相同,但是两个 3×3 的小卷积核参数量为 3×3×2=18,而一个 5×5 的大卷积核参数量为25,小卷积核串联的参数量更少。同样的道理,三个 3×3 的小卷积核能够获得与一个 7×7 的大卷积核相同的感受野而参数更少。此外,多个小卷积核的处理
【参考文献】:
期刊论文
[1]基于注意力反馈机制的深度图像标注模型[J]. 邓远远,沈炜. 浙江理工大学学报(自然科学版). 2019(02)
[2]基于多注意力多尺度特征融合的图像描述生成算法[J]. 陈龙杰,张钰,张玉梅,吴晓军. 计算机应用. 2019(02)
[3]结合视觉属性注意力和残差连接的图像描述生成模型[J]. 周治平,张威. 计算机辅助设计与图形学学报. 2018(08)
[4]基于GoogLeNet多阶段连带优化的图像描述[J]. 汤鹏杰,谭云兰,许恺晟,李金忠. 井冈山大学学报(自然科学版). 2016(05)
硕士论文
[1]结合视觉显著性及多特征表示的图像描述方法研究[D]. 刘丽莎.西安电子科技大学 2018
本文编号:2999883
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2999883.html
最近更新
教材专著