基于深度学习的图文匹配方法研究

发布时间：2020-05-24 18:36

【摘要】：随着信息技术的快速发展,图像和文本数据大幅度增长,但是这些数据对于计算机而言是难以理解和使用。为了能更好的对这些数据进行理解、查找和管理,本文利用深度学习的相关方法判断图像和文本在语义上是否具有相似性,本文的主要研究工作及成果如下:1.设计了一种可以识别图像中主体目标的评价模型。通过分析图像的目标检测和识别方法,发现这些方法无法准确识别图像中的主体目标。针对这一问题,本文设计了一套可以识别复杂背景图像中主体目标的评价模型CNN-Main。利用选择性搜索算法分割图像,提取图像中不同目标的候选区域并利用改进的卷积神经网络识别图像的多目标类别。提取图像目标后,利用显著性区域视觉模型建立主体目标评价体系计算每个目标的主体评分,取最高评分的目标作为主体目标。并通过实验,发现CNN-Main相比其他方法具有更优秀的表达效果。2.提出了一种融合图像主体目标和场景知识的图像语义提取模型。通过研究目前图像语义提取的方法,发现提取的图像语义质量普遍不高,且规避了主体目标。为了能产生高质量的图像语义,本文融合图像主体目标和场景的先验信息生成图像的语义,提出了一种MS-Net模型。让双向循环神经网络语言模型在产生图像的语义序列时,先验信息更加丰富。并通过实验,发现MS-Net提取的图像语义,相比其他方法在BLUE、METEOR和CIDEr评价指标上更具优势。3.设计了一种图像和文本相似度的计算方法。目前,图像和文本相似度计算的方法是先提取图像和文本的主要语义,然后计算它们之间的语义相似度,但是由于不同的限制条件使相似度计算方法存在很大误差。针对这一问题,本文设计了一种方法分别从两个不同的角度计算图像和文本相似度。首先使用WordNet本体分类树,对图像和文本的主要语义进行扩展,通过放大语义信息提高图文相似度的准确率。然后分析循环神经网络语言模型,结合长短时记忆网络依据上下文信息推测句子语义,从而达到提高准确率的目的。为验证本文提出的方法,构建了相应的数据集,实验结果表明,该方法在准确率,召回率和F值上的表现优于其他方法。综上,本文主要以深度学习为技术手段,以图像和文本为研究对象,分析图文匹配的关键问题,并给出相应的解决方案,通过实验验证其具有良好的效果。
【图文】：

系统搜索,百度,图像

前对于图文匹配的问题，国内外分别对图像搜索和图像语义提取究。对于图像搜索的研究目前已经应用于商业化模式，格局较为语义提取的研究还处于理论阶段，目前市场上还无法大量的应用图像搜索研究究人员一直在致力于寻找一种能够从海量数据中迅速定位到用户索技术。早期搜索图像主要依靠图像的标注信息，将文本和图像的匹配，这种技术称为文本的图像搜索技术(TBIR)。TBIR 主要利用行标注，当用户查询的时候输入相应的描述关键字，然后系统对输图像的标注进行精确或模糊匹配。如果对这种大规模的图像信息，将会产生巨大的人力物力消耗，而且人工标注存在很大的缺陷像的理解存在较大的不同，并没有统一的标准。面对这样的问题学习方法应时而生，已经实现图像的自动化标注，并且取得较好的在的百度、谷歌等公司的图像搜索系统都利用 TBIR 实现的。如百度通过 TBIR 进行图像搜索的结果。

图像主体,目标检测,主体目标

第 2 章基于深度学习的图像主体目标识别模型研究人类可以很容易的了解图像里面的主要目标和图像所表达的含义。但是对于机器而言这是一项十分困难的任务。图文匹配需要机器理解图像中的主体目标及其所表达的含义，这样便于将图像和类似文本信息进行匹配。一般情况下，在复杂环境中，图像存在较多的目标，如何将这些目标中的主体目标识别出来并理解主体目标和辅目标之间的关系是本章研究的重点。如图 2-1 是从数据集flickr30k 中随机选取的 3 张图像。左图中主体目标是一只狗，辅目标是雪地，图像表达含义是一只狗在雪地上玩耍。另外两张图像中标记的目标为主体目标，其他为辅助目标。本章主要对基于改进的 Fast R-CNN[14]的图像目标检测模型建立主体目标评价体系进行介绍，我们将此模型定义为 CNN-Main。
【学位授予单位】：武汉理工大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.41;TP183

【相似文献】