基于整体与局部感知的显著性物体检测
发布时间:2021-07-06 10:10
从自然场景中高效提取感兴趣的重要信息是计算机视觉必须解决的问题,人类视觉系统是借助视觉注意机制来处理这一问题,其中涉及特征整合、视觉搜索与注意力转移、时空信息整合、局部→整体/整体→局部的整合等人眼感知机理。人眼不仅能实现高效环境整体感知,同时又具备观测局部精细特征的能力。人脑中的整体与局部信息的整合机制尚不清楚,是有待深入探索的问题。为了借鉴人眼的这种感知能力,本文从整体与局部感知及其整合的角度探讨了图像中显著性物体的检测问题。(1)基于多级特征融合的整体感知显著性物体检测。为了融合底层细节特征和高层语义特征来针对显著性物体检测的互补性,采用编码-解码卷积网络作为骨干结构,提出了多级特征融合的整体感知模型。编码器通过逐层卷积将图片中由局部细节到整体粗略的特征提取出来,进而由解码器采取整合操作处理特征,捕捉到显著性物体在图像中存在的可能性。整体融合感知图是通过叠加操作进行融合,实现整体感知显著性物体检测。在公开的数据中的测试结果表明,多级特征的融合提升了显著性物体的检测准确率,同时该模型也优于其它经典的显著性物体检测模型。该模型同样可以用于焦点预测,测试表明,其性能在SIM、EMD指标...
【文章来源】:湘潭大学湖南省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
视觉注意搜索图[1]
湘潭大学硕士学位论文31.2.1视觉焦点预测图1-2视觉焦点预测图(第一行为原图,第二行为真实图)视觉焦点预测最早的工作是Langford等人[3]提出的。在最近20年中,涌现了很多关于视觉焦点预测的模型,焦点预测模型也分为自底向上模型[4],[5],[6],[7]、自顶往下模型[8],[9],以及结合两种策略的模型[10],[11]。早期的模型主要利用底层的边缘、颜色[12]、局部统计特征[13],[14]。但实际上人眼关注点大部分时间会聚集在明确结构的目标物体周边,因此如果不能利用高层语义特征,往往难以达到理想的预测效果。近年来,随着深度学习模型在视觉注意建模领域的应用,出现了很多利用高层语义特征提升预测性能的工作。最早成功利用深度网络的实现预测的是eDN模型[15],它提出了一种能够自动学习用于预测显著性的深层表示结构。算法从一类层次化神经网络序列中(其中每个个体是一个不超过3层的CNN)寻找最佳的深层特征,并将这些特征输入到SVM中进行显著性预测。在此基础上,引出了很多基于深度网络的模型。其中Kümmerer的研究团队在该方向开展了一系列的后续研究[4],[5],[16],[17]。其较早的工作Deep-GazeI[16]采用了5层AlexNet卷积神经网络,并利用固定预测模型中预先训练了ImagNet数据集对象识别的神经网络模型,最后利用顶层的特征以及对数似然法生成视觉焦点预测概率响应图。随后改进的DeepGazeII[4]使用识别性能更好的VGG19网络,在SALICON数据集上进行预训练,并在优化对数似然函数的概率框架下训练模型,而不是对VGG提取的特征进行再训练。为进一步提升性能,Deepfix利用多尺度核[6],而DVA[7]提出基于卷积的跳层网络,利用局部响应的浅层和整体响应的深层相结合的层次化多级特征,通过反卷积层的使用来提取多尺度信息,提?
跆卣鳌F渲凶远ネ?碌氖泳跆匦钥梢栽谕?绲?高级语义层学习。最后,在逻辑回归层中对自下而上和自上而下特征进行整合。类似的工作还有BorjiA等人[11]提出的整合Bottom-up和Top-down视觉特征的视觉注意预测方法。本文第3章的工作同样采用类似于DVA的卷积神经网络编码-解码结构来得到基于自底向上的视觉注意预测模型,并且综合利用了多层次特征。但是不同的是,其中浅层网络特征侧重用于提取局部显著性信息,而深层网络主要提取的全局显著性信息。采用多特征融合,能捕捉图像中的完整的显著性信息。1.2.2显著性物体检测图1-3显著性物体检测图(第一行为原图,第二行为真实图)显著性物体检测目的是将显著性物体区域从图像中突显并分割出来。不同于视觉焦点预测,显著性物体检测属于目标级视觉应用任务。其也经历了传统底层特征建模和深度特征学习建模两个阶段,其同样可以采用自底向上和自顶往下两种建模策略。其早期方法均是基于底层特征或启发式先验知识(对比度、背景等),例如基于对比度分析的模型[18]、基于区域增强的尺度不变方法[19]、基于亮度和颜色特征的方法[20]、基于一系列新颖特征,包括:多尺度对比、中心环绕直方图和颜色空间分布等特征的方法[21],以及基于区域对比度的方法[22]。但是这些传统方法并不太适用于丰富多样化的场景。2014年之后涌现了许多基于深度神经网络的方法。其通常表现为如何利用多尺度表示、多层次特征、局部和整体信息、以及不同的网络结构以便提升显著
【参考文献】:
硕士论文
[1]视觉注意机制建模中的注意焦点选择及转移轨迹优化设计[D]. 杨婷.天津大学 2012
本文编号:3268045
【文章来源】:湘潭大学湖南省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
视觉注意搜索图[1]
湘潭大学硕士学位论文31.2.1视觉焦点预测图1-2视觉焦点预测图(第一行为原图,第二行为真实图)视觉焦点预测最早的工作是Langford等人[3]提出的。在最近20年中,涌现了很多关于视觉焦点预测的模型,焦点预测模型也分为自底向上模型[4],[5],[6],[7]、自顶往下模型[8],[9],以及结合两种策略的模型[10],[11]。早期的模型主要利用底层的边缘、颜色[12]、局部统计特征[13],[14]。但实际上人眼关注点大部分时间会聚集在明确结构的目标物体周边,因此如果不能利用高层语义特征,往往难以达到理想的预测效果。近年来,随着深度学习模型在视觉注意建模领域的应用,出现了很多利用高层语义特征提升预测性能的工作。最早成功利用深度网络的实现预测的是eDN模型[15],它提出了一种能够自动学习用于预测显著性的深层表示结构。算法从一类层次化神经网络序列中(其中每个个体是一个不超过3层的CNN)寻找最佳的深层特征,并将这些特征输入到SVM中进行显著性预测。在此基础上,引出了很多基于深度网络的模型。其中Kümmerer的研究团队在该方向开展了一系列的后续研究[4],[5],[16],[17]。其较早的工作Deep-GazeI[16]采用了5层AlexNet卷积神经网络,并利用固定预测模型中预先训练了ImagNet数据集对象识别的神经网络模型,最后利用顶层的特征以及对数似然法生成视觉焦点预测概率响应图。随后改进的DeepGazeII[4]使用识别性能更好的VGG19网络,在SALICON数据集上进行预训练,并在优化对数似然函数的概率框架下训练模型,而不是对VGG提取的特征进行再训练。为进一步提升性能,Deepfix利用多尺度核[6],而DVA[7]提出基于卷积的跳层网络,利用局部响应的浅层和整体响应的深层相结合的层次化多级特征,通过反卷积层的使用来提取多尺度信息,提?
跆卣鳌F渲凶远ネ?碌氖泳跆匦钥梢栽谕?绲?高级语义层学习。最后,在逻辑回归层中对自下而上和自上而下特征进行整合。类似的工作还有BorjiA等人[11]提出的整合Bottom-up和Top-down视觉特征的视觉注意预测方法。本文第3章的工作同样采用类似于DVA的卷积神经网络编码-解码结构来得到基于自底向上的视觉注意预测模型,并且综合利用了多层次特征。但是不同的是,其中浅层网络特征侧重用于提取局部显著性信息,而深层网络主要提取的全局显著性信息。采用多特征融合,能捕捉图像中的完整的显著性信息。1.2.2显著性物体检测图1-3显著性物体检测图(第一行为原图,第二行为真实图)显著性物体检测目的是将显著性物体区域从图像中突显并分割出来。不同于视觉焦点预测,显著性物体检测属于目标级视觉应用任务。其也经历了传统底层特征建模和深度特征学习建模两个阶段,其同样可以采用自底向上和自顶往下两种建模策略。其早期方法均是基于底层特征或启发式先验知识(对比度、背景等),例如基于对比度分析的模型[18]、基于区域增强的尺度不变方法[19]、基于亮度和颜色特征的方法[20]、基于一系列新颖特征,包括:多尺度对比、中心环绕直方图和颜色空间分布等特征的方法[21],以及基于区域对比度的方法[22]。但是这些传统方法并不太适用于丰富多样化的场景。2014年之后涌现了许多基于深度神经网络的方法。其通常表现为如何利用多尺度表示、多层次特征、局部和整体信息、以及不同的网络结构以便提升显著
【参考文献】:
硕士论文
[1]视觉注意机制建模中的注意焦点选择及转移轨迹优化设计[D]. 杨婷.天津大学 2012
本文编号:3268045
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3268045.html
最近更新
教材专著