基于深度学习的物体间关系检测算法研究

发布时间：2020-10-01 16:10

　　近年来,智能机逐渐得到普及,用户每天产生的图像数据大幅增加。同时随着移动互联网的发展,用户越来越习惯于在网上分享图片和视频,图像理解的应用价值越发明显。虽然物体是图像中最重要的组成元素,但往往是物体间的关系决定了图像的整体含义,因此,物体间关系检测是图像理解的关键步骤,是连接计算机视觉和自然语言处理的重要桥梁。目前物体间关系检测已经成为计算机视觉领域的研究热点。目前深度学习已经成为计算机视觉领域最重要的特征提取方法,本文首先介绍了深度学习的基本理论和常用模型。其次,本文使用卷积神经网络构建了一个能够同时检测主语、谓语、宾语的关系网络,并通过与候选区域网络合并的方式得到了一个新的关系检测模型,该模型的主要优势是能够实现端到端的训练和预测。最后,本文提出了一个基于关系信息的候选区域生成算法。现有的候选区域生成算法都是只关注单个候选区域,而没有关注它们间的相关性。本文将关系信息引入到候选区域生成算法,防止其产生不合理的候选区域,从而提高了算法的召回率。通过在Visual Relationship数据集上进行实验评估并与现有算法进行对比,验证了基于关系信息的候选区域生成算法的优越性,也证明了关系信息能提高候选区域生成算法的召回率。
【学位单位】：北京邮电大学
【学位级别】：硕士
【学位年份】：2019
【中图分类】：TP391.41;TP181
【部分图文】：

算法流程,物体检测,候选框,方框

逑图丨－１传统物体检测算法流程逡逑传统的物体检测流程如图１－１所示，给定一张图片，候选框生成模块找出图逡逑像中可能包含物体的方框，随后分类器依据这些方框的图像特征进行分类，得到逡逑方框所属的物体类别。从检测流程可以看出，传统的物体检测算法主要包括三部逡逑分内容：候选框生成、图像特征设计和分类器。下面将依次介绍这三个部分：逡逑（１）

谓语,算法流程,现状,物体

这类算法的检测速度更快，但检测准确率较差。ＹＯＬＯ算法的主要思逡逑路是先将图像分成７Ｘ７的网格，并在每个网格内预估出两个物体，随后根据阈逡逑值去除可能性比较低的物体方框得到最终的检测结果，整体流程如图１－３所示。逡逑ＹＯＬＯ算法没有候选框机制，直接在７ｘ７的网格上回归物体边框，这使得物体逡逑的定位不是非常准确。针对ＹＯＬ？算法存在的问题，ＳＳＤ算法借鉴了邋Ｆａｓｔｅｒ邋Ｒ－逡逑ＣＮＮ中描点（ａｎｃｈｏｒ）的理念，为每一个网格单兀预设大小、比例各不相同的多逡逑个先验框，在先验框的基础上回归物体边框。ＳＳＤ算法的这一设计使得其对物体逡逑的定位更加准确。逡逑《８。——ｄｅｎｃｅ》＞邋丨念逡逑ｉ邋ｉ邋１逦［邋ｉ／逡逑ｗｌ＇邋ｉ－．．．１邋＇ｉｉ逦平子邋ｌｗ逡逑Ｓ邋ｘ邋Ｓ邋ｇｒｉｄ邋ｏｎ邋ｉｎｐｕｔ逦Ｈ邋Ｈ逦Ｆｉｎａｌ邋ｄｅｔｅｃｔｉｏｎｓ逡逑Ｃｌａｓｓ邋ｐｒｏｂａｂｉｌｉｔｙ邋ｍａｐ逡逑图１－３邋ＹＯＬＯ算法流程［１２】逡逑１．２．２谓语检测研究现状逡逑谓语检测的目标是预估出两个物体间最可能的谓语类别，目前效果比较好的逡逑谓语检测算法是李飞飞提出的含有语言先验的检测方法Ｗ以及视觉转换嵌入模逡逑型［｜５］邋（ＶｉｓｕａｌＴｒａｎｓｌａｔｉｏｎＥｍｂｅｄｄｉｎｇ，邋ＶＴｒａｎｓＥ），下面将分别对这两种方法进行介逡逑绍。逡逑含有语言先验的检测方法的主要思路是先使用Ｒ－ＣＮＮ模型检测出一张图片逡逑中所有的物体，并将这些物体两两组合构成物体对，随后使用视觉和语言两个模逡逑块判断两个物体间最可能的谓语类别。模型的语言模块使用预训练好的ＷＯＴｄ２ｖｅｃ逡逑模型［％将两个物体的类别转化为向量并进行拼接

结构图,神经元模型,计算流程,神经元

（？ｌＡ３ｊ逡逑图２－１神经元模型结构图逡逑以图２－１中的神经元模型为例说明神经元模型的计算流程：神经元接收三个逡逑输入变量々，Ｘ２，邋Ｘ３，这些输入变量分别与权重Ｗｉ，ｗ２，相乘并作和，随后逡逑非线性函数（也叫激活函数）对求和值进行转换得到神经元的最终输出。神经元逡逑模型的完整计算逻辑如式２－１所示，其中ｗ，？表示权值，Ａ表示输入，／表示激活函逡逑数。逡逑ｙ邋＝逦ｗ＾ｉ）逦（２－１）逡逑理想的激活函数是图２－２所示的阶跃函数，它能将输入值映射为０或者１（对逡逑应于生物神经元，１表示兴奋，０表示抑制）。然而，阶跃函数具有不连续、不光逡逑滑等缺点，因此实际中一般使用Ｓｉｇｍｏｉｄ［２３１和修正线性单兀［２４１邋（Ｒｅｃｔｉｆｉｅｄ邋Ｌｉｎｅａｒ逡逑Ｕｎｉｔ，ＲｅＬＵ）作为激活函数。逡逑１．５｜逡逑１．０逦逡逑０．５邋－逡逑Ｉ逦Ｌ．．．邋．邋邋邋—邋１逦逦！逦！逦＞逡逑－３－２－１０１２３逡逑图２－２阶跃函数逡逑２．１．２邋ＢＰ神经网络逡逑上面介绍的yL经元模型结构非常简单，只是对输入数据做了一次加权求和以逡逑及一次非线性变换

【相似文献】