面向图像的有效目标区域提取方法
发布时间:2021-06-07 04:40
针对图像标注、目标识别等实际应用中图像的前景目标定位不够准确的问题,提出了一种图像中的有效目标区域提取方法。该方法以提取图像的前景目标为目的,将目标区域提取问题转化为二分类问题,实现了对图像中有效目标区域的提取,主要包括4个步骤:利用选择性搜索算法生成图像中的候选目标区域;通过对像素值的差值化处理来进行图像区域的特征增强;基于深度学习实现对候选目标区域进行分类;区域选择与融合。在MSCOCO数据集上进行实验,结果表明,该方法在保证较高召回率的基础上,达到了比现有多种算法更加准确的目标区域定位结果。
【文章来源】:西安交通大学学报. 2019,53(05)北大核心EICSCD
【文章页数】:6 页
【部分图文】:
有效目标区域提取框架
增强过程可以看作将目标区域差值化,即p′ij=pij-1K∑Kk=1^pk(1)式中:pij为区域中任一像素点的值;p′ij为特征增强后的像素值;^pk为目标区域中的代表性像素点。本文选择矩形目标区域的水平和竖直两条中线上的1/4、1/2和3/4位置上共5个像素点作为代表性像素点,即K=5,并对于R、G、B这3个通道分别进行计算。在实际的图像中,目标区域特征增强前后的对比结果如图2所示。由图2可知,对目标区域进行特征增强之后,使得目标之间的差异程度更小,同时该操作依旧保留了目标的形状信息,有利于区分生成的有效目标区域和其他区域。(a)特征增强前(b)特征增强后图2目标区域特征增强前后比较2.3基于深度网络的目标区域检测本文采用的网络结构基于VGG-16深度网络[7],保留了该网络的前13层结构作为提取图片特征的部分,在此基础上添加了3个全连接层作为分类网络,最终输出一个2维向量,以此判断输入图像区域是有效目标区域还是背景区域(非有效目标)。其中对输入到网络中的图像区域(imagepatch)要首先进行缩放处理,调整至224×224大小,其目的是对于不同输入都可以保证在进入到全连接层之前,网络所产生的向量长度是一致的。另外,在具体的网络结构中,卷积层所使用的激活函数是ReLU函数;池化层所采用的池化方式为最大池化;3个全连接层的神经元个数则分别设置为1024、256和
训练网络,其中涵盖了所有的80类目标概念,为了保证训练样本平衡性与学习性能,本文基于这些图像共生成10万个正样本和10万个负样本用于训练深度网络。由于本工作不涉及不同目标类别的判别,因此在使用标注结果时,利用了图像中目标的位置信息而忽略了其类别信息。在测试过程中,为了评估本文方法,采用了具有标注结果的验证集。从验证集中选取涵盖所有的80类目标概念的1000张图像来评估最终的实验结果。3.2目标区域特征增强的结果图3展示了进行特征增强前后,目标区域中所有像素值在特征空间中的分布变化,本文随机选取了20个目标区域并对其增强前后像素值的分布在RGB空间进行了展示,图3中x、y、z分别表示R、G、B空间。由图3可知:在特征增强前,目标区域的多样性导致了像素值分布非常分散;对目标区域进行特征增强之后,目标区域在特征空间中的分布更加集中,且分布在原点附近的较小范围内,这对于提高目标区域分类的性能有很大帮助。(a)特征增强前(b)特征增强后图3特征增强前后区域像素值在空间中的分布3.3目标区域的融合结果针对深度网络输出的候选目标区域,基于目标响应方法,将提取结果进行进一步融合,得到最终的目标区域,目标区域的融合过程如图4所示。由图4可知,通过基于目标响应的区域融合过程,最终得到的目标区域不仅保留了网络输出结果中置信度高的区域,保证了有效目标可以达到较高的召回率,同时也过滤掉了大量对应于同一目标的重叠区域,在一定程度上提
本文编号:3215883
【文章来源】:西安交通大学学报. 2019,53(05)北大核心EICSCD
【文章页数】:6 页
【部分图文】:
有效目标区域提取框架
增强过程可以看作将目标区域差值化,即p′ij=pij-1K∑Kk=1^pk(1)式中:pij为区域中任一像素点的值;p′ij为特征增强后的像素值;^pk为目标区域中的代表性像素点。本文选择矩形目标区域的水平和竖直两条中线上的1/4、1/2和3/4位置上共5个像素点作为代表性像素点,即K=5,并对于R、G、B这3个通道分别进行计算。在实际的图像中,目标区域特征增强前后的对比结果如图2所示。由图2可知,对目标区域进行特征增强之后,使得目标之间的差异程度更小,同时该操作依旧保留了目标的形状信息,有利于区分生成的有效目标区域和其他区域。(a)特征增强前(b)特征增强后图2目标区域特征增强前后比较2.3基于深度网络的目标区域检测本文采用的网络结构基于VGG-16深度网络[7],保留了该网络的前13层结构作为提取图片特征的部分,在此基础上添加了3个全连接层作为分类网络,最终输出一个2维向量,以此判断输入图像区域是有效目标区域还是背景区域(非有效目标)。其中对输入到网络中的图像区域(imagepatch)要首先进行缩放处理,调整至224×224大小,其目的是对于不同输入都可以保证在进入到全连接层之前,网络所产生的向量长度是一致的。另外,在具体的网络结构中,卷积层所使用的激活函数是ReLU函数;池化层所采用的池化方式为最大池化;3个全连接层的神经元个数则分别设置为1024、256和
训练网络,其中涵盖了所有的80类目标概念,为了保证训练样本平衡性与学习性能,本文基于这些图像共生成10万个正样本和10万个负样本用于训练深度网络。由于本工作不涉及不同目标类别的判别,因此在使用标注结果时,利用了图像中目标的位置信息而忽略了其类别信息。在测试过程中,为了评估本文方法,采用了具有标注结果的验证集。从验证集中选取涵盖所有的80类目标概念的1000张图像来评估最终的实验结果。3.2目标区域特征增强的结果图3展示了进行特征增强前后,目标区域中所有像素值在特征空间中的分布变化,本文随机选取了20个目标区域并对其增强前后像素值的分布在RGB空间进行了展示,图3中x、y、z分别表示R、G、B空间。由图3可知:在特征增强前,目标区域的多样性导致了像素值分布非常分散;对目标区域进行特征增强之后,目标区域在特征空间中的分布更加集中,且分布在原点附近的较小范围内,这对于提高目标区域分类的性能有很大帮助。(a)特征增强前(b)特征增强后图3特征增强前后区域像素值在空间中的分布3.3目标区域的融合结果针对深度网络输出的候选目标区域,基于目标响应方法,将提取结果进行进一步融合,得到最终的目标区域,目标区域的融合过程如图4所示。由图4可知,通过基于目标响应的区域融合过程,最终得到的目标区域不仅保留了网络输出结果中置信度高的区域,保证了有效目标可以达到较高的召回率,同时也过滤掉了大量对应于同一目标的重叠区域,在一定程度上提
本文编号:3215883
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3215883.html