基于高层语义的图像描述生成模型研究
发布时间:2021-10-25 06:36
图像描述生成旨在为给定的图像生成相应的自然语言文字描述。图像描述生成涉及计算机视觉和自然语言处理领域,具有很强的挑战性。近年来,基于深度神经网络的图像描述生成方法虽已取得极大进展,然而现有方法仍无法避免因图像高层语义的缺失而造成的描述文本不准确不自然等问题。因此,本文结合图像的高层语义信息,研究图像描述生成的方法和技术。本文的主要工作如下:(1)基于神经网络的编码-解码模型虽能依赖大规模训练集学习到编码后的图像特征与解码生成的描述文本之间的关联关系,但仍无法避免生成的描述存在语义缺失、语义错误等缺陷。针对此问题,本文在经典的编码-解码模型基础上进行了改进,提出了一种融合高层语义再生成的图像描述生成模型,即先利用Faster R-CNN检测出图像中的高层语义词,再通过注意力机制将高层语义信息融入到网络模型中,对初始图像描述进行再生成。实验结果表明,融合高层语义信息有助于改善图像描述文本的质量。(2)研究发现,人对图像进行描述时,不仅依赖自身的语言水平,还依赖图像内容中未明显包含的常识性知识,而现有的图像描述生成模型很少能充分利用这类常识性知识。针对此问题,本文提出一种基于图像高层语义引入...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图像描述示例
果。Mason[5]等人使用该场景属性数据集构建待描述图像的视觉表示,并从训练集中找出与之视觉相似的图像集,之后,依据文本特征,采用概率密度估计的方法在相似图像集的候选描述中找出最符合条件的图像描述。Devlin[6]等人使用k最近邻的方法得到与输入图像视觉表示最相近的k个图像,随后从这k个图像的描述集中选出最佳描述作为图像的描述。这种基于图像视觉检索生成图像描述的方法虽然在一定程度上保证了描述的语法正确性,但却无法保证描述的语义与图像内容的相关性。另外,对数据库之外的图像很难为之生成相关的描述。图1.2基于图像检索的图像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的图像描述生成基于模板的方法首先使用检测器提取输入图像中视觉概念,具体为图像中对象类型、对象属性、场景类型(室内或室外)等词汇标签,然后根据预先设定好的句子模板或语法规则在空缺上填充相应的目标内容,以便生成遵循规则的图像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如图1.3所示,该模型使用检测器识别图像中具体的视觉概念,即预测图像物体、物体属性和物体之间相互关系的具体单词,之后采用CRF算法计算物体之间的关系重组属性标签,最后将属性标签填充到模板的相应位置生成图像的描述。Farhadi[8]等人借助语法分析等手段抽取描述中图像的视觉概念并构建物体、动作和场景之间的三元组表示,并基于三元组相似训练图像识别和分类器,进而可以将输入图
模型,计算选择出检测词中最可能相关词语组合并对模板句子的空槽内容进行填充。Lu[11]等人把图像描述生成分成两个阶段,将描述文本数据集中词语分为实体词与非实体词,先由语言模型预先训练好只包含非实体词的句子模板;再通过目标检测提取图像中的实体词,并将提取到的实体词用于填充由句子模板中的空槽,进而生成完整的图像描述。这种基于模板的图像描述生成方法虽然基本保证了描述的语义正确性,但是非常依赖于生成描述前预先制定的句子模板和语法规则。另外,对于句子的多样性来说,该方法无法生成较为灵活的描述。图1.3基于模板的图像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于语言模型的图像描述生成基于语言模型的方法首先提取输入图像的特征表示,并将图像特征表示输入带训练好的语言模型后,直接根据图像特征表示生成对应的描述。该方法中图像的特征提取以及描述的生成都需要优质的模型结构作为支撑,而深度学习技术为该方法提供了基矗受机器翻译中基于神经网络的语言模型[12][13][14]成功启发,Vinyals等人[15]和Karpathy等人[16]提出了基于神经网络的语言模型方法,该方法结构如图1.4所示,首先使用深度卷积网络CNN对图像处理得到图像表征,之后使用基于循环神经网络RNN构建的语言模型将图像表征进行解码生成相应的描述。在此模型基础
【参考文献】:
期刊论文
[1]图像特征提取研究[J]. 翟俊海,赵文秀,王熙照. 河北大学学报(自然科学版). 2009(01)
本文编号:3456847
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图像描述示例
果。Mason[5]等人使用该场景属性数据集构建待描述图像的视觉表示,并从训练集中找出与之视觉相似的图像集,之后,依据文本特征,采用概率密度估计的方法在相似图像集的候选描述中找出最符合条件的图像描述。Devlin[6]等人使用k最近邻的方法得到与输入图像视觉表示最相近的k个图像,随后从这k个图像的描述集中选出最佳描述作为图像的描述。这种基于图像视觉检索生成图像描述的方法虽然在一定程度上保证了描述的语法正确性,但却无法保证描述的语义与图像内容的相关性。另外,对数据库之外的图像很难为之生成相关的描述。图1.2基于图像检索的图像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的图像描述生成基于模板的方法首先使用检测器提取输入图像中视觉概念,具体为图像中对象类型、对象属性、场景类型(室内或室外)等词汇标签,然后根据预先设定好的句子模板或语法规则在空缺上填充相应的目标内容,以便生成遵循规则的图像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如图1.3所示,该模型使用检测器识别图像中具体的视觉概念,即预测图像物体、物体属性和物体之间相互关系的具体单词,之后采用CRF算法计算物体之间的关系重组属性标签,最后将属性标签填充到模板的相应位置生成图像的描述。Farhadi[8]等人借助语法分析等手段抽取描述中图像的视觉概念并构建物体、动作和场景之间的三元组表示,并基于三元组相似训练图像识别和分类器,进而可以将输入图
模型,计算选择出检测词中最可能相关词语组合并对模板句子的空槽内容进行填充。Lu[11]等人把图像描述生成分成两个阶段,将描述文本数据集中词语分为实体词与非实体词,先由语言模型预先训练好只包含非实体词的句子模板;再通过目标检测提取图像中的实体词,并将提取到的实体词用于填充由句子模板中的空槽,进而生成完整的图像描述。这种基于模板的图像描述生成方法虽然基本保证了描述的语义正确性,但是非常依赖于生成描述前预先制定的句子模板和语法规则。另外,对于句子的多样性来说,该方法无法生成较为灵活的描述。图1.3基于模板的图像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于语言模型的图像描述生成基于语言模型的方法首先提取输入图像的特征表示,并将图像特征表示输入带训练好的语言模型后,直接根据图像特征表示生成对应的描述。该方法中图像的特征提取以及描述的生成都需要优质的模型结构作为支撑,而深度学习技术为该方法提供了基矗受机器翻译中基于神经网络的语言模型[12][13][14]成功启发,Vinyals等人[15]和Karpathy等人[16]提出了基于神经网络的语言模型方法,该方法结构如图1.4所示,首先使用深度卷积网络CNN对图像处理得到图像表征,之后使用基于循环神经网络RNN构建的语言模型将图像表征进行解码生成相应的描述。在此模型基础
【参考文献】:
期刊论文
[1]图像特征提取研究[J]. 翟俊海,赵文秀,王熙照. 河北大学学报(自然科学版). 2009(01)
本文编号:3456847
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3456847.html
最近更新
教材专著