基于语义相关性的图像可变长度标注及评价方法研究
发布时间:2021-01-08 10:46
图像标注作为图像分析与理解的重要组成部分,已广泛应用到图像检索、图像描述、视觉问答等众多领域。图像标注是利用机器学习模型给图像分配反映图像核心内容的标签。现有的图像标注过程主要包括特征提取及表示,模型训练和测试。模型在测试阶段通常使用固定长度的标签标注每一幅图像,而标签长度应取决于图像内容的复杂度。现有的图像标注评价指标侧重于标签的绝对正误,尽管有效地衡量正确标签的个数,但忽视了标签的全局相关性。因此本文从图像标注方法及评价指标展开深入研究,其主要工作如下:(1)提出了一种自适应标签长度的图像标注方法。首先,该方法提取图像的高层语义特征,根据语义特征预测图像的标签长度,预测的标签数量与实际标注任务更加一致;其次,利用相似图像和相关标签构建丰富的候选标签集合;最后,利用标签间的语义关系和采样算法从候选标签中选择具有代表性的标签,从而去除冗余标签。在常用的多标签图像标注数据集上,该方法与几种代表性的图像标注方法进行对比。实验结果验证了该方法可以预测更多正确的标签。(2)提出了一种基于语义树的图像标注评价方法,动态地评估标签的正确性及相关性。该评价方法根据标签的层级和同义关系,为相互关联的标...
【文章来源】:湘潭大学湖南省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图像标注的示例
图像的内容丰富且多变,特征是图像主要内容的集中表示。图像特征是图像标注中关键的基础环节,选择较强表示能力的图像特征是标注任务的重要保证。常用的特征提取方法如颜色直方图[41]、尺度不变特征变化[42](Scale Invariant FeatureTransform,SIFT) 和视觉词袋[43](Bag of View Word,BoVW) 等。这些手工设计特征具有较好的效果,且得到广泛的应用,但无法充分地表示图像语义信息。最近,卷积神经网络在图像识别和分类任务中取得巨大的成功。基于卷积神经网络的特征表示试图从人类理解图像的方式表示图像的高层视觉特征,通过对图像每个像素的学习,形成图像特征的层层表示,完整地保留图像数据的本质语义信息。一般的卷积神经网络如图 2.1 所示,卷积层是卷积神经网络的主要部分,通过一系列滤波器对输入层进行卷积运算,输出不同的特征映射(Feature Maps)。之后,特征映射进行非线性处理,一般经过修正线性单元(Rectified Linear Unit,ReLU),将特征映射中数值为负的元素设置为零,使其具有稀疏性。池化层对输入的特征映射进行采样,使其急剧变化的区域进行均衡化。全连接层前面几层所学习的分布式特征串联成矢量便是基于卷积神经网络的特征表示。最后一层的全连接层是对语义特征进行分类识别。
Google公开了Word2vec,它可以把单词表示为一组词向量[55]。Word2在神经网络语言模型的基础上进行改进的,训练时候将每个单词表示为实数向过词间距离判断两者的相似度。Word2vec采用的训练模型有CBOW和Skip-gra文本语料库上训练。.4 多样性图像标注模型近年来,图像标注模型关注标签间的语义关系,并且利于标签间的语义关系了更好推理,特别是在多样化和精细化的图像标注。如 DIA[19](Diverse Imnnotation) 模 型 和 D2IA-GAN[40](Diverse and Distinct Image Annotation witenerativeAdversarial Network) 模型。(1)DIA 模型DIA 使用行列式点过程,将标签预测转换为多样性标签子集选择。DIA 模型标签间的层级关系和同义关系,将标签关系嵌入标签的权重路径。DIA 利用标权重路径,采样权重大的标签。DIA 算法的框如图 2.2 所示。
本文编号:2964458
【文章来源】:湘潭大学湖南省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图像标注的示例
图像的内容丰富且多变,特征是图像主要内容的集中表示。图像特征是图像标注中关键的基础环节,选择较强表示能力的图像特征是标注任务的重要保证。常用的特征提取方法如颜色直方图[41]、尺度不变特征变化[42](Scale Invariant FeatureTransform,SIFT) 和视觉词袋[43](Bag of View Word,BoVW) 等。这些手工设计特征具有较好的效果,且得到广泛的应用,但无法充分地表示图像语义信息。最近,卷积神经网络在图像识别和分类任务中取得巨大的成功。基于卷积神经网络的特征表示试图从人类理解图像的方式表示图像的高层视觉特征,通过对图像每个像素的学习,形成图像特征的层层表示,完整地保留图像数据的本质语义信息。一般的卷积神经网络如图 2.1 所示,卷积层是卷积神经网络的主要部分,通过一系列滤波器对输入层进行卷积运算,输出不同的特征映射(Feature Maps)。之后,特征映射进行非线性处理,一般经过修正线性单元(Rectified Linear Unit,ReLU),将特征映射中数值为负的元素设置为零,使其具有稀疏性。池化层对输入的特征映射进行采样,使其急剧变化的区域进行均衡化。全连接层前面几层所学习的分布式特征串联成矢量便是基于卷积神经网络的特征表示。最后一层的全连接层是对语义特征进行分类识别。
Google公开了Word2vec,它可以把单词表示为一组词向量[55]。Word2在神经网络语言模型的基础上进行改进的,训练时候将每个单词表示为实数向过词间距离判断两者的相似度。Word2vec采用的训练模型有CBOW和Skip-gra文本语料库上训练。.4 多样性图像标注模型近年来,图像标注模型关注标签间的语义关系,并且利于标签间的语义关系了更好推理,特别是在多样化和精细化的图像标注。如 DIA[19](Diverse Imnnotation) 模 型 和 D2IA-GAN[40](Diverse and Distinct Image Annotation witenerativeAdversarial Network) 模型。(1)DIA 模型DIA 使用行列式点过程,将标签预测转换为多样性标签子集选择。DIA 模型标签间的层级关系和同义关系,将标签关系嵌入标签的权重路径。DIA 利用标权重路径,采样权重大的标签。DIA 算法的框如图 2.2 所示。
本文编号:2964458
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2964458.html
最近更新
教材专著