协同目标分割与识别的研究

发布时间:2025-01-14 00:18
  人类能够轻松地完成对视野中目标物体的解析,比如将目标分割出来并进行识别;但对于计算机,图像分割仍是一个具有挑战性的任务。一个重要原因是,计算机视觉模型在进行图像分割时往往只基于底层的图像数据,而很少涉及到有关于待分割目标的具体知识。事实上,无论对人类还是对计算机,目标分割与目标识别这两个任务是密切相关的:对目标的认识和有关目标的知识能够指导分割模型获得更精确的结果;反之,由于没有背景干扰,更精确的分割结果也可以提升目标识别的效果。这两个任务形成了一个“鸡生蛋-蛋生鸡”的问题。在分析了国内外相关研究领域的基础上,本论文重点研究如何在目标分割任务中引入来自目标识别任务的信息,实现两个任务的协同。本文的主要研究内容和贡献在于:1.基于对人类视觉认知机制的模仿,我们提出了一个协同目标分割与识别任务框架,其中两个任务相互交流和促进。基于这一框架,我们以变分分割为基础,以玻尔兹曼机(RBM)为核心实现了一个协同任务模型,其中目标被表达为两个方面:形状和外观。形状用于表达目标的整体结构,而外观用于表达形状内的颜色、纹理等信息。RBM的判别功能和生成功能都被应用到协同任务中。前者用于提取目标形状的特征并...

【文章页数】:136 页

【学位级别】:博士

【部分图文】:

图1.2人类的视觉认知机制

图1.2人类的视觉认知机制

浙江大学博士学位论文1绪论图1.2人类的视觉认知机制。人类能够将目标从复杂环境和背景中分离提取出来,依赖的是人类具有目标的一些先验知识。这些知识来自于更高层的任务,如识别/分类。它们能够在分割过程中提供对目标的整体认识,并且对分割过程产生经验性的指导和约束。对目标进行识别;2.从....


图1.4相比形状信息,深度学习模型在进行识别任务时更加依赖于纹理信息

图1.4相比形状信息,深度学习模型在进行识别任务时更加依赖于纹理信息

浙江大学博士学位论文1绪论图1.4相比形状信息,深度学习模型在进行识别任务时更加依赖于纹理信息。从左至右:象皮纹理图像;普通的猫图像;象皮纹理化的猫图像。模型会以大概率认为第三幅图像是大象,而非猫[9]综合这些要素,在接下来的几节里,我们将首先从与协同任务存在一定相关性相似性的任....


图1.5Chenetal.[33]使用RBM对形状进行特征提取和重建

图1.5Chenetal.[33]使用RBM对形状进行特征提取和重建

浙江大学博士学位论文1绪论图1.5Chenetal.[33]使用RBM对形状进行特征提取和重建。算,都可能需要逐一计算当前结果q和各先验形状qi之间的相似度或距离,或者将所有先验形状纳入到能量函数中进行考察。从人类视觉认知的角度而言,这一过程是非常不可思议的:人类不会将当前见到的....


图1.6FCN将全连接层转化为了全卷积层用于语义分割任务[48]

图1.6FCN将全连接层转化为了全卷积层用于语义分割任务[48]

浙江大学博士学位论文1绪论图1.6FCN将全连接层转化为了全卷积层用于语义分割任务[48]其中g(i,j)可以使用两个像素点之间的图像值关系、位置关系等,往往根据具体任务进行设计和调整,如基于邻域像素点颜色差异的边界特征[46]g(i,j)=θp+θvexp(θβ||IiIj||....



本文编号:4026122

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4026122.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40c70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com