基于生成对抗网络的自监督表示学习研究及应用
发布时间:2020-10-10 16:47
信息处理任务的难易程度取决于信息被呈现的方式,这一原则无论对日常生活还是对计算机科学都适用。机器学习方法的性能更是重度依赖于数据表示(或特征表示)根据应用场景的选择。表示学习尝试学习一种数据表示,它抽取有用信息,即寻找从高维形式到潜向量这种低维形式的映射。表示学习是一种提取样本特征的特殊降维,这种降维使得分类器或其它预测模型更为有效。学习有效的表示映射及其逆映射在图像处理和图像理解研究中都是极为重要的问题。本文基于深度卷积神经网络框架和生成对抗网络理论,主要关注和讨论了表示学习领域的一些挑战性问题。本文的创新性成果主要包括如下内容:1.针对表示学习方法中常见的信息丢失和语义不明确等问题,利用数据流形的自然聚类性质,提出了基于生成对抗网络的表示学习方法。学习有效的表示映射及其逆映射是一个极为重要的问题,然而大多数表示学习算法都需要在尽可能多地保留与输入相关的信息和追求良好的性质(如独立性)之间作出权衡。表示学习中较为常见的信息丢失的难题在图像层面体现为经过表示映射和逆映射的重构过程后不可避免的局部模糊。为了解决这一问题,本文在自编码器的结构中创新性地引入了生成对抗网络的结构,构造了一种新型的生成对抗自编码器(generative adversarial auto-encoder,GAAE)。考虑到卷积神经网络在图像表示学习中表现出的优异性质,本文在生成对抗自编码器的模型中大量采用了卷积结构以高效地完成图片样本的表示学习任务。通过样本融合实验和生成分布的连续性实验,验证了模型学习到的表示的连续性,即生成对抗自编码器学习到的映射的像空间是一个接近训练集分布的连续流形。2.针对图像到图像的转换问题中成对样本难以获取的问题,提出了基于特征保持条件生成对抗网络(identity preserving conditional generative adversarial networks,IPcGAN)的图像翻译模型。图像到图像的转换(image-to-imagetranslation)是计算机视觉的一类问题,该问题尝试利用成对的训练集样本来学习从源域(source-domain)到目标域(target-domain)的映射。然而,对于大部分任务而言,收集成对训练样本的代价极大,为了解决这一难题,本文引入了生成对抗网络和分步训练,通过“训练条件生成对抗网络”、“生成数据集”、“训练编码器”的步骤,在缺少成对样本的前提下学习像素空间中从源域Ds到目标域Dt的变换映射G。对抗损失函数(adversarial loss)的引入保证了学习到的映射G满足条件:G(Ds)中的样本构成的分布趋近于目标域Dt的分布。3.针对图像到图像的转换过程中样本身份特征难以保持的问题,提出了两种可选的后置处理过程。为了解决图像到图像的转换过程中样本身份信息丢失的问题,引入了两种可选的后置处理过程:用联合损失函数对网络参数进行微调(fine-tune)或用掩模(masking)技术对图片进行后置处理,两种后置处理都能在尽可能保持样本身份信息的同时修改样本的其他属性。其次,用定性和定量的多组实验来评估算法,用潜空间上的向量插值实验验证了生成分布的连续性;在重构任务上将模型与变分自编码生成对抗网络(variational auto-encoder generative adversarial networks,VAE-GAN)进行了比较,重构结果明显优于后者;用开源的人脸识别软件Openface[1]检验了修改属性后人脸身份信息的完整性;用 Inception Score(IS)和 Frechet Inception Distance(FID)[3]检测了生成样本的质量并与其它主流生成模型进行了比较,验证了模型在人脸属性修改任务中可以生成质量良好的人脸图片。
【学位单位】:浙江大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.41;TP18
【部分图文】:
迁移学习是一种挖掘并利用不同学习任务间的共性的学习算法,这些学习任务间可以??通过迁移学习来共享统计信息。表示学习在迁移学习场景中的潜力已经被很多的经验性结??果所验证。如图1-1所示,表示学习模型学习到一些可解释因子(中间的隐藏层),其中一??些子集可以解释输入数据,一些子集可以解释不同任务的目标,因为这些子集是部分重叠??的,所以会共享部分统计信息,有利于泛化。??迁移学习问题广泛存在于各种实际应用中,如计算机视觉l27-3Q】、自然语言处理[31]和??情感分析【32,33】等。4.2节更详细地介绍了迁移学习的概念和研究现状。??表示学习在迁移学习(transfer?learning)的挑战赛中表现优异134,35],在域自适应??(domainadaptation)方面3,表示学习也取得了很多成功的应用125,36]。在多任务学习(multi-??tasklearning)方面,由于可以在任务间共享信息,表示学习表现出了其独特的优越性??3域自适应指目标分布保持不变
将公式(2-1)中的阈值0记为u,0,令.t〇?=?—1,公式(2-1)即简化成(2-2)。感知机模型可??以利用有监督学习实现权重项和偏置项的自动调整,这种学习能力成为了很多复杂算法??的基础。如图2-1所示,人工神经网络就是包含一个或者多个隐含层的多层感知机。图??中x,:(i?=?表示输入信号,叫(?'?=?l,...,n)表示各输入信号的连接权重,6表示偏置??项,c=X^=1u;,.x2?+?b,a为激活函数,y?=?a(c)?=?a(E丨+?为输出信号。??X1?\?f?1??x??xm?b?'???J??n??图2-1人工神经网络模型。3"办=1.....n)表示输入信号,叫(i?=?1,....n)表示各输入信号的连接??权重,6表示偏置项,+6,?〇为激活函数,以:咖卜^乙二叫心+^为输出信号。??1986年,为了解决多层神经网络中计算量过于复杂的问题,Rumelhar等人提出了反向??传播算法[38】。反向传播算法分两步进行,即(1)正向传播:输入的信号x?士??=?1.....m)经??过隐含层神经元传向输出层。在传播过程中,每层神经元状态只受上一层神经元影响,即??相邻两层神经元构成一个基本单元。输出层信号与期望信号比较后得到误差信号
经网络层级联而成,每层神经网络由简单细胞单元(S-cell)?(7S及复杂细胞单元(C-cell)??队相间分布而成,这种交替分布的形式是模仿生物简单细胞中的处理机制而设计的,其结??构示意图如图2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??图2-3神经感知器示意图。%表示输入层,其后简单细胞单元及复杂细胞单元(C-cell)?%相??间分布。??卷积神经网络是一种特殊的人工神经网络,它通过局部连接和权值共享大大减少了网??络参数,同时又保留了网络的深层结构,这种类似生物神经网络的结构降低了训练难度,??又提高了泛化能力。这种网络结构对图像的平移、缩放、旋转都具有高度鲁棒性,且三维??图像可以直接作为网络的输入。??有两大关键的设计思想推动了卷积结构在计算机视觉领域的成功。第一,卷积神经网??络利用了图像的2D结构,并且利用了图像相邻区域内的像素通常高度相关这一特性。因??此,区别于大多数神经网络,卷积神经网络无需使用所有像素单元之间的一对一连接,而??!2??
【参考文献】
本文编号:2835329
【学位单位】:浙江大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.41;TP18
【部分图文】:
迁移学习是一种挖掘并利用不同学习任务间的共性的学习算法,这些学习任务间可以??通过迁移学习来共享统计信息。表示学习在迁移学习场景中的潜力已经被很多的经验性结??果所验证。如图1-1所示,表示学习模型学习到一些可解释因子(中间的隐藏层),其中一??些子集可以解释输入数据,一些子集可以解释不同任务的目标,因为这些子集是部分重叠??的,所以会共享部分统计信息,有利于泛化。??迁移学习问题广泛存在于各种实际应用中,如计算机视觉l27-3Q】、自然语言处理[31]和??情感分析【32,33】等。4.2节更详细地介绍了迁移学习的概念和研究现状。??表示学习在迁移学习(transfer?learning)的挑战赛中表现优异134,35],在域自适应??(domainadaptation)方面3,表示学习也取得了很多成功的应用125,36]。在多任务学习(multi-??tasklearning)方面,由于可以在任务间共享信息,表示学习表现出了其独特的优越性??3域自适应指目标分布保持不变
将公式(2-1)中的阈值0记为u,0,令.t〇?=?—1,公式(2-1)即简化成(2-2)。感知机模型可??以利用有监督学习实现权重项和偏置项的自动调整,这种学习能力成为了很多复杂算法??的基础。如图2-1所示,人工神经网络就是包含一个或者多个隐含层的多层感知机。图??中x,:(i?=?表示输入信号,叫(?'?=?l,...,n)表示各输入信号的连接权重,6表示偏置??项,c=X^=1u;,.x2?+?b,a为激活函数,y?=?a(c)?=?a(E丨+?为输出信号。??X1?\?f?1??x??xm?b?'???J??n??图2-1人工神经网络模型。3"办=1.....n)表示输入信号,叫(i?=?1,....n)表示各输入信号的连接??权重,6表示偏置项,+6,?〇为激活函数,以:咖卜^乙二叫心+^为输出信号。??1986年,为了解决多层神经网络中计算量过于复杂的问题,Rumelhar等人提出了反向??传播算法[38】。反向传播算法分两步进行,即(1)正向传播:输入的信号x?士??=?1.....m)经??过隐含层神经元传向输出层。在传播过程中,每层神经元状态只受上一层神经元影响,即??相邻两层神经元构成一个基本单元。输出层信号与期望信号比较后得到误差信号
经网络层级联而成,每层神经网络由简单细胞单元(S-cell)?(7S及复杂细胞单元(C-cell)??队相间分布而成,这种交替分布的形式是模仿生物简单细胞中的处理机制而设计的,其结??构示意图如图2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??图2-3神经感知器示意图。%表示输入层,其后简单细胞单元及复杂细胞单元(C-cell)?%相??间分布。??卷积神经网络是一种特殊的人工神经网络,它通过局部连接和权值共享大大减少了网??络参数,同时又保留了网络的深层结构,这种类似生物神经网络的结构降低了训练难度,??又提高了泛化能力。这种网络结构对图像的平移、缩放、旋转都具有高度鲁棒性,且三维??图像可以直接作为网络的输入。??有两大关键的设计思想推动了卷积结构在计算机视觉领域的成功。第一,卷积神经网??络利用了图像的2D结构,并且利用了图像相邻区域内的像素通常高度相关这一特性。因??此,区别于大多数神经网络,卷积神经网络无需使用所有像素单元之间的一对一连接,而??!2??
【参考文献】
相关期刊论文 前1条
1 黄凯奇;任伟强;谭铁牛;;图像物体分类与检测算法综述[J];计算机学报;2014年06期
本文编号:2835329
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2835329.html