基于深度学习的视觉场景理解算法研究
发布时间:2021-02-26 00:16
场景语义理解是计算机视觉领域的重点问题之一,它是计算机通过模拟人类视觉功能感知真实世界的主要工具。随着深度学习在计算机视觉领域的广泛应用,物体检测、实例分割等问题取得了重大突破,但图像描述、视觉问答(VQA)等高层场景语义理解任务仍需进一步探索与研究。场景图作为图像的语义描述,已经在许多任务上体现了对高层场景语义理解任务的促进作用,经过研究者们不断的努力,场景图生成任务也已经取得了快速发展。但在真实世界中,复杂的视觉信息依然给目前的场景图生成方法带来了很多挑战,例如场景中物体之间的关联性如何利用,数据集中难以标注真实场景中所有物体间存在的关系,这些问题都限制了场景图生成方法在真实场景中的性能。目前场景图生成任务主要有两大难点,其一在于如何利用图像中物体及其关系的上下文信息,另一大难点则在于如何应对数据集标注困难导致的数据偏差问题。针对图像中物体及其关系的上下文信息利用问题,本文提出一种基于上下文的场景图生成方法,该方法通过融合物体位置信息、语义信息与视觉特征获得全面的物体表示,并利用双向的长短时记忆网络(Bi-LSTM)编码上下文信息以及条件随机场(CRF)建模的结构化预测方法来提高场...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
复杂视觉场景实例Fig1.1Anexampleofcomplexvisualscene
合肥工业大学学术硕士研究生学位论文123.基于结构化预测的场景图生成模型3.1引言场景图是图像中视觉内容的一种结构化表示,它对于复杂的图像理解任务诸如图像描述、视觉问答和图像语义检索有很大帮助。在现实世界中,我们所看到的图像通常包括数个物体且它们之间还存在着复杂的语义关系,因此上下文信息在场景图生成任务中是不可或缺的。同时在前人的工作中已经指出场景图中不同节点的上下文相关性是不对称的,这意味着基于物体标签直接预测关系标签的准确度很高,反之则不然。基于这一发现,现有的工作已成功利用物体节点之间的上下文模式以及物体节点与关系节点之间的依赖关系显著的提升了场景图生成任务的效果。但这些工作依然存在缺憾——没有充分考虑空间信息和关系节点之间的上下文依赖。在本章中,我们提出了结构化的关系预测网络,其通过挖掘更完整的全局上下文特征来预测物体标签和物体对关系。实验表明,我们的模型在VRD和VisualGenome数据集上大大优于先前的方法。李飞飞等人首先在[16]中提出了场景图是图像中视觉内容的一种结构化表示这一概念,其以图结构来表示图像中的物体与物体间的关系。一对物体及其之间的关系被表示为一个三元组<主语-关系-宾语>,如果一个三元组中主语宾语位置交换,对应的关系也随之改变。在我们的场景图生成方法中,我们将物体与关系都表示为场景图中的节点,如图3.1所示。每个物体节点的邻居节点都是关系节点,反之亦然。由于在关系描述中必须使用自然语言的主语-谓语结构,因此场景图中的边为有向边,方向定义为由主语节点指向关系节点以及由关系节点指向宾图3.1场景图样例Fig3.1AnexampleofScenegraph
合肥工业大学学术硕士研究生学位论文14过预训练的Faster-RCNN模型来检测物体。模型需要的物体上下文信息通过双向LSTM(以视觉特征和物体标签作为输入)获得。然后,另一个双向LSTM专门用于通过先前双向LSTM中计算出的物体标签和物体上下文信息来计算关系的上下文信息。最后,我们采用条件随机场来建模场景图的物体节点与关系节点之间的依赖关系,并生成最终预测。本章方法的主要贡献归纳如下:(1)我们提出了一种具有增强的上下文建模的场景图解析框架,该框架捕获了最完整的全局上下文信息。(2)我们提出了一种灵活的4维位置编码方案来对物体的空间关系进行建模。(3)提出了一种基于物体节点全局上下文特征的结构化关系预测模型。(4)我们通过在两个广泛使用的场景图数据集上的实验结果证明了该方法的有效性。3.2相关工作在本节中,我们将简要回顾场景图解析的先前方法,并讨论与所提出的方法最相关的工作。近年来,随着基于深度学习的识别模型的成功[28,29,32],研究人员的兴趣转向图3.2场景图结构化预测模型框架Fig3.2Theframeworkofourstructuredpredictionmodelforscenegraphgeneration
本文编号:3051792
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
复杂视觉场景实例Fig1.1Anexampleofcomplexvisualscene
合肥工业大学学术硕士研究生学位论文123.基于结构化预测的场景图生成模型3.1引言场景图是图像中视觉内容的一种结构化表示,它对于复杂的图像理解任务诸如图像描述、视觉问答和图像语义检索有很大帮助。在现实世界中,我们所看到的图像通常包括数个物体且它们之间还存在着复杂的语义关系,因此上下文信息在场景图生成任务中是不可或缺的。同时在前人的工作中已经指出场景图中不同节点的上下文相关性是不对称的,这意味着基于物体标签直接预测关系标签的准确度很高,反之则不然。基于这一发现,现有的工作已成功利用物体节点之间的上下文模式以及物体节点与关系节点之间的依赖关系显著的提升了场景图生成任务的效果。但这些工作依然存在缺憾——没有充分考虑空间信息和关系节点之间的上下文依赖。在本章中,我们提出了结构化的关系预测网络,其通过挖掘更完整的全局上下文特征来预测物体标签和物体对关系。实验表明,我们的模型在VRD和VisualGenome数据集上大大优于先前的方法。李飞飞等人首先在[16]中提出了场景图是图像中视觉内容的一种结构化表示这一概念,其以图结构来表示图像中的物体与物体间的关系。一对物体及其之间的关系被表示为一个三元组<主语-关系-宾语>,如果一个三元组中主语宾语位置交换,对应的关系也随之改变。在我们的场景图生成方法中,我们将物体与关系都表示为场景图中的节点,如图3.1所示。每个物体节点的邻居节点都是关系节点,反之亦然。由于在关系描述中必须使用自然语言的主语-谓语结构,因此场景图中的边为有向边,方向定义为由主语节点指向关系节点以及由关系节点指向宾图3.1场景图样例Fig3.1AnexampleofScenegraph
合肥工业大学学术硕士研究生学位论文14过预训练的Faster-RCNN模型来检测物体。模型需要的物体上下文信息通过双向LSTM(以视觉特征和物体标签作为输入)获得。然后,另一个双向LSTM专门用于通过先前双向LSTM中计算出的物体标签和物体上下文信息来计算关系的上下文信息。最后,我们采用条件随机场来建模场景图的物体节点与关系节点之间的依赖关系,并生成最终预测。本章方法的主要贡献归纳如下:(1)我们提出了一种具有增强的上下文建模的场景图解析框架,该框架捕获了最完整的全局上下文信息。(2)我们提出了一种灵活的4维位置编码方案来对物体的空间关系进行建模。(3)提出了一种基于物体节点全局上下文特征的结构化关系预测模型。(4)我们通过在两个广泛使用的场景图数据集上的实验结果证明了该方法的有效性。3.2相关工作在本节中,我们将简要回顾场景图解析的先前方法,并讨论与所提出的方法最相关的工作。近年来,随着基于深度学习的识别模型的成功[28,29,32],研究人员的兴趣转向图3.2场景图结构化预测模型框架Fig3.2Theframeworkofourstructuredpredictionmodelforscenegraphgeneration
本文编号:3051792
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3051792.html
最近更新
教材专著