深度学习下标记受限的视觉识别研究
发布时间:2020-03-27 13:55
【摘要】:随着大规模数据时代的到来和计算资源的大力提升,以卷积神经网络为代表的深度学习技术在各种视觉识别任务上取得了突破性的进展。现有的深度学习算法以大规模、标记精确的训练数据为前提。然而,标记受限(标记不充分或标记不确定)的视觉识别问题在现实中是非常普遍的,且以往的研究较少,是视觉问题中新的挑战。本文从特征表示和特征学习这两个角度尝试解决标记受限的视觉识别问题,其应用主要包括单标记图像识别、多标记图像识别、场景分类、视频分类、面部属性估计、头部姿态估计、语义分割等,主要工作包括:1.提出了一个使用深度学习特征的图像识别框架DSP。本文探索了使用深度特征的5个重要因素,分析了它们对特征表示的影响,并提供了相应的决策:(1)卷积层的特征由于保留空间信息、计算量小,因而比全连接层特征更有效;(2)Frobenius范数矩阵标准化比非标准化或l2向量标准化更有效;(3)提出的深层空间金字塔能非常自然地编码空间信息;(4)FV编码中使用非常小的高斯分量就可以获得较高的识别率,这与平常用较大值的经验完全相反;(5)提取多尺度的深度特征可以有效提升识别系统的性能。所提DSP框架实现简单、高效、准确,有效性在许多标准数据集上得到验证。2.提出了一种判别式分布距离特征编码方法D3,它可以将视觉对象的一组特征向量有效地编码为单个向量。在计算机视觉中,视觉对象(图像或视频)通常表示为一组描述子向量,设计强有力的特征表示方法编码一组向量为单个向量是至关重要的。现有方法如FV或VLAD是基于生成式角度设计的,当使用不同类型的描述子向量(如密集的SIFT或深度特征)时,它们的性能会发生波动。本文提出的D3方法有效地把两组描述子向量作为两个分布来比较,并提出一个方向总变分距离(DTVD)来衡量它们的不相似性。此外,本文还提出了一种基于判别式的方法来稳健地估计DTVD。D3在视频动作和图像识别任务中表现出卓越的稳健性、准确性和高效性。3.提出了一个有效利用标记不确定性协同学习特征和标记分布的深度标记分布学习框架DLDL。卷积神经网络在各种视觉识别任务中取得了出色的识别性能,其成功最重要的因素之一是大规模带有标记的训练集。然而,在诸如年龄估计、头部姿态估计、多标记分类和语义分割等领域,很难收集到足够多且标记精确的训练图像。幸运的是,这些任务的标记之间存在不确定信息,这使得它们与传统分类任务不同。基于这种观察,本文将每幅图像的单值标记转换为离散标记分布,通过深度卷积网络最小化预测分布和真实标记分布之间的Kullback-Leibler散度来学习标记分布。该框架能有效地利用标记的不确定性,能够有效地减小过拟合的风险,即使在训练数据不充足时也能很好的工作。实验结果表明,所提方法在年龄估计和头部姿态估计上显著好于现有方法。同时,它还有效改善了多标记分类和语义分割的识别性能。4.提出了联合标记分布学习和期望回归的深度学习框架。排序卷积网络和DLDL是当前面部属性(例如年龄或颜值)估计最好的方法。但是,这些方法在训练目标和评估指标之间存在不一致性,因此它们可能不是最理想的。此外,它们一般采用具有大量参数的图像分类或人脸识别预训练模型,这带来了昂贵的计算成本和存储开销。为缓解这些问题,本文设计了一个轻量级的网络结构,并提出了一个可以联合学习标记分布和回归标记值的统一框架。本文还探究了排序CNN和DLDL之间的关系,首次证明排序方法本质上是隐式地学习标记分布,这一结果将现有排序学习方法统一到DLDL框架中。所提框架的有效性已在面部年龄和颜值估计任务上得到验证,使用该方法单一模型就可以高效地(参数减小36倍,预测速度提升2.6倍)超过当前最好的方法,即使模型参数进一步减小到0.9M(3.8MB磁盘存储),本文方法也可以与当前最好的技术相媲美。
【图文】:
和语义分割是计算机视觉中三项最基本的识别任务。除了面向一般对象的识别逡逑夕卜,以人体为对象的行人检测、人物解析和以人脸为对象的人脸识别、人脸属逡逑性(年龄、姿态、颜值、性别和表情等)估计等(如图1-2所示)是非常重要和基逡逑础的视觉识别问题。特别是以人脸为中心的视觉问题,由于其可以快速地促进逡逑各种智能化的商业应用,例如安全监控、电子支付、广告精准投放、安全驾驶逡逑等,因此在学术界和工业界也受到了研宄人员的极大关注。相比于图像,视频逡逑数据包含更丰富的信息,因此视频理解更有挑战性。基于视频的语义内容如人逡逑类行为和复杂事件等,将视频片段自动分类至单个或多个类别的视频分类是继逡逑图像分类后的一个关键的视频理解问题。研究这些视觉识别问题对当代智能化逡逑的推进具有重大的意义。逡逑(a)人脸识别逦(b)年龄估计逦(c)姿态估计逦(d)颜值评分逡逑图1-2:以人脸为中心的视觉识别问题包括人脸检测、识别,年龄估计,姿态估计和颜值评逡逑分等。逡逑几十年来,人类对上述视觉问题进行了不懈的探索。回顾计算机视觉发展逡逑的历程
征工程”时代的特征提取和学习识别的方法相比,深度学习将它们整合到一个逡逑统一的框架中。由于深度学习能够自动地将原始数据表征为高层的抽象表示,逡逑因此人们也习惯称其为“表示学习”或“特征学习”。图1-3展示了深度学习发展逡逑过程中一些创新性、革新性的研究成果。逡逑深度学习技术在计算机视觉上第一次真正的突破是在2012年ImageNet逡逑1000类图像识别挑战大赛中。Geoffrey邋Hinton的学生Alex邋Krizhevsky在Ima-逡逑geNet百万训练数据集上
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.41;TP181
本文编号:2603054
【图文】:
和语义分割是计算机视觉中三项最基本的识别任务。除了面向一般对象的识别逡逑夕卜,以人体为对象的行人检测、人物解析和以人脸为对象的人脸识别、人脸属逡逑性(年龄、姿态、颜值、性别和表情等)估计等(如图1-2所示)是非常重要和基逡逑础的视觉识别问题。特别是以人脸为中心的视觉问题,由于其可以快速地促进逡逑各种智能化的商业应用,例如安全监控、电子支付、广告精准投放、安全驾驶逡逑等,因此在学术界和工业界也受到了研宄人员的极大关注。相比于图像,视频逡逑数据包含更丰富的信息,因此视频理解更有挑战性。基于视频的语义内容如人逡逑类行为和复杂事件等,将视频片段自动分类至单个或多个类别的视频分类是继逡逑图像分类后的一个关键的视频理解问题。研究这些视觉识别问题对当代智能化逡逑的推进具有重大的意义。逡逑(a)人脸识别逦(b)年龄估计逦(c)姿态估计逦(d)颜值评分逡逑图1-2:以人脸为中心的视觉识别问题包括人脸检测、识别,年龄估计,姿态估计和颜值评逡逑分等。逡逑几十年来,人类对上述视觉问题进行了不懈的探索。回顾计算机视觉发展逡逑的历程
征工程”时代的特征提取和学习识别的方法相比,深度学习将它们整合到一个逡逑统一的框架中。由于深度学习能够自动地将原始数据表征为高层的抽象表示,逡逑因此人们也习惯称其为“表示学习”或“特征学习”。图1-3展示了深度学习发展逡逑过程中一些创新性、革新性的研究成果。逡逑深度学习技术在计算机视觉上第一次真正的突破是在2012年ImageNet逡逑1000类图像识别挑战大赛中。Geoffrey邋Hinton的学生Alex邋Krizhevsky在Ima-逡逑geNet百万训练数据集上
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.41;TP181
【参考文献】
相关期刊论文 前1条
1 尹宝才;孙艳丰;王成章;盖峗;;BJUT-3D三维人脸数据库及其处理技术[J];计算机研究与发展;2009年06期
,本文编号:2603054
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2603054.html