基于自编码器框架的草图生成与分割方法研究
发布时间:2021-06-02 22:57
随着科技的发展与进步,人们身边出现了越来越多的智能设备,这些智能设备其中很大一部分是带有触摸屏的设备,包括平板电脑、智能手机。这些智能设备深度参与了人类的生活,也很大程度上改变了人类的交流方式。在这个快节奏的社会,人们倾向于使用草图这种既简洁又蕴含丰富信息的信息载体来进行交流,这也促使了大批草图相关的应用领域的产生,包括草图生成、草图检索、草图识别等。与此同时,随着深度学习的蓬勃发展,其在自然图像的相关领域,包括图像识别、图像生成、图像分割等都取得了巨大的成功。然而,由相机获得的二维自然图像通常都是现实世界的完美拷贝,手绘草图不同,它是通过人类大脑加工过的产物,具有很强的主观性。在视觉领域,手绘草图是一个特殊的模态,这也决定了将自然图像领域的方法直接套搬到草图领域是不合适的,手绘草图领域的方法需要有特殊的设计和思想。为了方便计算,在计算机中手绘草图通常会被存储为二维的像素图片,然而,这种存储方式会获得一个高度稀疏的矩阵。人类绘画草图的过程是一个动态的过程,像表示自然图像那样表示草图,虽然可以保留很多草图视觉形状上的信息,但也必然会丢失很多绘画时的动态信息。用矢量形式表示草图的优势就是可...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
象形文字图示
第一章绪论2图1.2表情包图示Fig1.2TheillustrationsofEmoji随着互联网上出现的草图数据越来越多,以及面向草图的应用越来越受欢迎。都促使了学术界和工业界开始更广泛地研究手绘草图。与此同时,深度学习技术也在迅速发展,并在各种人工智能任务中达到了最先进的水平,这一切都使得手绘草图的研究出现了前所未有的繁荣,但是充满机遇的同时,也处处都是挑战。特别是近年来,尽管已经针对手绘草图提出了大量的深度学习模型,但仍有许多问题有待探究和解决。在视觉领域,手绘草图是一种独特的模态。它具有很多这个模态特有的性质,手绘草图领域具有的独特挑战可以总结归纳为以下几点:(1)高度抽象化。当人类决定使用草图去描绘一个物体或一个场景时,大脑会首先对特定的物体或场景的轮廓进行抽象概括。一般人都会寻求使用尽可能少的笔画数,来描绘符合他们脑中所概括的物体或场景的抽象轮廓。这就意味着这些笔画都是由人脑预先处理的。如图1.3所示,金字塔可以在草图中描绘为简单的三角形,而寥寥几笔便可以描绘了一个精美的手提包。这种高度抽象化的结果对草图相关的模型来说是一个很大的挑战。(2)高度多样化。草图是由人类绘画出来的,然而,不同的个体具有不同的绘画风格,例如夸张的,艺术的。并且,不同个体之间的绘画能力是有差异的。如图1.3所示,在给定特定类别“猫”以及参考图像的情况下,人们仍然会画出有/无身体的各种猫。这种高度多样化性质的存在,会使得模型很难学习到一个特定具有的一般模式。(3)高噪声。一方面,人们在绘画草图的过程中总是会带有一些多余的和嘈杂的笔
视觉相似性,例如,狗和猪。有时候,由于类内样本的多样性以及类间样本的相似性,“狗”类具有的噪声会使得其在模型中更像“猪”。(4)高度稀疏性。如果像自然图像那样,在像素空间中表示手绘草图,会使得表示结果是一种高度稀疏的信号。这种高度稀疏性的存在,会使草图的建模具有很高的挑战性。如果使用CNN对草图进行建模,则通过卷积运算会涉及许多不必要的零,而实际具有数值的像素点所占比例非常少。这就涉及到如何寻求一种高效的表示方式的问题,如果数据表示方式高效合理,则会使模型的学习达到事半功倍的效果。图1.3草图领域独特挑战图示Fig1.3Theillustrationsofdomain-uniquechallengesoffree-handsketches上述固有特征和领域特有的挑战决定了手绘草图问题需要有特定的设计和思想。此外,收集草图时还存在一些独特的挑战。对于单模式草图任务,QuickDraw数据集是目前最大的数据集,包含超过5000万个草图样本。但是,QuickDraw数据集中的草图样本通常非常抽象且嘈杂,这是因为QuickDraw在线游戏仅允许玩家使用20秒来绘制草图。另一方面,仅提供了类标签,而没有其他任何细粒度的注释(即属性,分组),因此,对于单模式任务,QuickDraw数据集主要用于草图识别或预训练。1.2国内外研究现状近几年来,手绘草图领域经历了飞速的发展,涌现出一大批里程碑式的工作。这些工作包含很多方面,有面向深度学习的任务,推动整个领域进步的数据集,创新的网络结构等。2015年,SketchX实验室提出了Sketch-a-Net[1]模型。Sketch-a-Net是第一个被设计用来解决手绘草图问题的深度卷积神经网络,并且首次实现了在草图识别任务上的识别精度打败了人类。这一具有启发性的工作证明了卷积神经网络在草图分析上的能力,
本文编号:3210908
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
象形文字图示
第一章绪论2图1.2表情包图示Fig1.2TheillustrationsofEmoji随着互联网上出现的草图数据越来越多,以及面向草图的应用越来越受欢迎。都促使了学术界和工业界开始更广泛地研究手绘草图。与此同时,深度学习技术也在迅速发展,并在各种人工智能任务中达到了最先进的水平,这一切都使得手绘草图的研究出现了前所未有的繁荣,但是充满机遇的同时,也处处都是挑战。特别是近年来,尽管已经针对手绘草图提出了大量的深度学习模型,但仍有许多问题有待探究和解决。在视觉领域,手绘草图是一种独特的模态。它具有很多这个模态特有的性质,手绘草图领域具有的独特挑战可以总结归纳为以下几点:(1)高度抽象化。当人类决定使用草图去描绘一个物体或一个场景时,大脑会首先对特定的物体或场景的轮廓进行抽象概括。一般人都会寻求使用尽可能少的笔画数,来描绘符合他们脑中所概括的物体或场景的抽象轮廓。这就意味着这些笔画都是由人脑预先处理的。如图1.3所示,金字塔可以在草图中描绘为简单的三角形,而寥寥几笔便可以描绘了一个精美的手提包。这种高度抽象化的结果对草图相关的模型来说是一个很大的挑战。(2)高度多样化。草图是由人类绘画出来的,然而,不同的个体具有不同的绘画风格,例如夸张的,艺术的。并且,不同个体之间的绘画能力是有差异的。如图1.3所示,在给定特定类别“猫”以及参考图像的情况下,人们仍然会画出有/无身体的各种猫。这种高度多样化性质的存在,会使得模型很难学习到一个特定具有的一般模式。(3)高噪声。一方面,人们在绘画草图的过程中总是会带有一些多余的和嘈杂的笔
视觉相似性,例如,狗和猪。有时候,由于类内样本的多样性以及类间样本的相似性,“狗”类具有的噪声会使得其在模型中更像“猪”。(4)高度稀疏性。如果像自然图像那样,在像素空间中表示手绘草图,会使得表示结果是一种高度稀疏的信号。这种高度稀疏性的存在,会使草图的建模具有很高的挑战性。如果使用CNN对草图进行建模,则通过卷积运算会涉及许多不必要的零,而实际具有数值的像素点所占比例非常少。这就涉及到如何寻求一种高效的表示方式的问题,如果数据表示方式高效合理,则会使模型的学习达到事半功倍的效果。图1.3草图领域独特挑战图示Fig1.3Theillustrationsofdomain-uniquechallengesoffree-handsketches上述固有特征和领域特有的挑战决定了手绘草图问题需要有特定的设计和思想。此外,收集草图时还存在一些独特的挑战。对于单模式草图任务,QuickDraw数据集是目前最大的数据集,包含超过5000万个草图样本。但是,QuickDraw数据集中的草图样本通常非常抽象且嘈杂,这是因为QuickDraw在线游戏仅允许玩家使用20秒来绘制草图。另一方面,仅提供了类标签,而没有其他任何细粒度的注释(即属性,分组),因此,对于单模式任务,QuickDraw数据集主要用于草图识别或预训练。1.2国内外研究现状近几年来,手绘草图领域经历了飞速的发展,涌现出一大批里程碑式的工作。这些工作包含很多方面,有面向深度学习的任务,推动整个领域进步的数据集,创新的网络结构等。2015年,SketchX实验室提出了Sketch-a-Net[1]模型。Sketch-a-Net是第一个被设计用来解决手绘草图问题的深度卷积神经网络,并且首次实现了在草图识别任务上的识别精度打败了人类。这一具有启发性的工作证明了卷积神经网络在草图分析上的能力,
本文编号:3210908
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3210908.html
最近更新
教材专著