基于深度学习的图像描述模型的设计与实现
发布时间:2021-11-23 04:01
图像描述问题同时涉及计算机视觉和自然语言处理,是近年来深度学习领域一个热门的研究问题。目前,主流的图像描述模型的研究重点在于如何设计更加有效的视觉注意力机制,使得模型能够在生成图像描述语句的过程中更好地提取和利用图像特征。但是,它们在生成描述语句时倾向于采用固定的语言结构模式,即它们生成的描述语句会偏向于由数据集中频繁出现的词汇短语组成的这样一种固定的形式,而不能依据图像中的某些独特的特征,生成更加丰富多样化而且正确描述图像内容的描述语句。本文经过分析,总结出造成上述问题的主要原因:传统的模型普遍采用了长短期记忆网络来生成图像描述语句,从而导致模型未能够学习和利用自然语句内部的句法特征。针对于此,本文提出一个基于自注意力机制和空间注意力机制的图像描述模型。该模型在设计上采用了流行的Encoder-Decoder框架结构,Encoder模块中利用了卷积神经网络来提取图像特征,Decoder中使用了多个由多头空间注意力子层、多头自注意力子层和全连接前馈网络子层堆叠而成的子模块替代传统模型中的长短期记忆网络。其中,多头空间注意力子层是应用空间注意力机制来选取和利用图像特征;多头自注意力子层则...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
所有词向量降维后可视化图
5.1.1 训练数据集设计与处理本次课题所使用的数据集是 MSCOCO(2014) [33],该数据集中总共包括超过 120,000 张图片数据。这个数据集是微软公开的大规模标注数据集,并且可以用于深度学习领域的目标识别、目标分割、人体关键点检测(人体姿态估计)和图像描述的任务中。MSCOCO2014 数据集中的用于图像描述任务的标注数据是使用亚马逊公司的“土耳其机器人(Mechanical Turk)”服务,人工地为其中“train”部分和“val”部分的图像都生成了 5 句描述语句。之所以为每张图片生成 5 句描述语句,而不是一句,主要是考虑到人类自然语言的灵活性。毕竟,对于同一张图片,不同的人可能因为描述的角度不同而生成不同的且都正确的描述语句。图5-1 给出了数据集中的图像示例。同时,数据集中图片的标注数据采用了key-value 的方式进行记录。其中,每张图片标注数据里的 key 包括“image_id”、“id”和“caption”,例如:{“image_id”: 47720, “id”: 829317 , “caption”: “a cup ofcoffe sits next to panini sandwich on a counter”}。
-92β =0.98, ε=10;学习率初始值设置为 0.01,并且每当模型训练按照一定比例降低;模型描述语句的最大长度(max-length)设使用的损失函数(loss function)是交叉熵(cross-entropy)损为了防止过拟合(over-fitting),提高模型的泛化能力,模型中的数是带 l2 正则(权重衰减)的损失函数。损失函数,又被称为误 function)或者代价函数(cost function),可以看作是模型的目的是模型的输出与真实标注数据之间的差异或者距离,表示模型程度。我们训练模型的目标是使模型的输出与真是标注数据尽可而通常损失函数的值越小表示模型性能越好。模型在训练数据集值被称为训练误差(training error),而在验证集和测试集上的值为验证误差(validation error)和测试误差(test error)。5-2 展示了由 tensorbard 生成的模型训练过程中随着训练总步数变误差的变化曲线。该图的纵坐标表示的是模型训练过程中的训练是训练总步数。从图中可以看出,训练误差总体来说呈现不断下化轨迹。这表明模型的训练朝着正确的方向进行。
【参考文献】:
硕士论文
[1]基于深度学习的图像语义标注与描述研究[D]. 郑永哲.广西师范大学 2017
本文编号:3513083
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
所有词向量降维后可视化图
5.1.1 训练数据集设计与处理本次课题所使用的数据集是 MSCOCO(2014) [33],该数据集中总共包括超过 120,000 张图片数据。这个数据集是微软公开的大规模标注数据集,并且可以用于深度学习领域的目标识别、目标分割、人体关键点检测(人体姿态估计)和图像描述的任务中。MSCOCO2014 数据集中的用于图像描述任务的标注数据是使用亚马逊公司的“土耳其机器人(Mechanical Turk)”服务,人工地为其中“train”部分和“val”部分的图像都生成了 5 句描述语句。之所以为每张图片生成 5 句描述语句,而不是一句,主要是考虑到人类自然语言的灵活性。毕竟,对于同一张图片,不同的人可能因为描述的角度不同而生成不同的且都正确的描述语句。图5-1 给出了数据集中的图像示例。同时,数据集中图片的标注数据采用了key-value 的方式进行记录。其中,每张图片标注数据里的 key 包括“image_id”、“id”和“caption”,例如:{“image_id”: 47720, “id”: 829317 , “caption”: “a cup ofcoffe sits next to panini sandwich on a counter”}。
-92β =0.98, ε=10;学习率初始值设置为 0.01,并且每当模型训练按照一定比例降低;模型描述语句的最大长度(max-length)设使用的损失函数(loss function)是交叉熵(cross-entropy)损为了防止过拟合(over-fitting),提高模型的泛化能力,模型中的数是带 l2 正则(权重衰减)的损失函数。损失函数,又被称为误 function)或者代价函数(cost function),可以看作是模型的目的是模型的输出与真实标注数据之间的差异或者距离,表示模型程度。我们训练模型的目标是使模型的输出与真是标注数据尽可而通常损失函数的值越小表示模型性能越好。模型在训练数据集值被称为训练误差(training error),而在验证集和测试集上的值为验证误差(validation error)和测试误差(test error)。5-2 展示了由 tensorbard 生成的模型训练过程中随着训练总步数变误差的变化曲线。该图的纵坐标表示的是模型训练过程中的训练是训练总步数。从图中可以看出,训练误差总体来说呈现不断下化轨迹。这表明模型的训练朝着正确的方向进行。
【参考文献】:
硕士论文
[1]基于深度学习的图像语义标注与描述研究[D]. 郑永哲.广西师范大学 2017
本文编号:3513083
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3513083.html