基于语义引导的循环一致对抗图像自动着色

发布时间：2021-07-30 03:51

　　图像着色任务的目的是将灰度图像的每个像素转换成合适的色彩像素,以使生成的着色图像具有感知上的意义和视觉吸引力。图像着色可协助视觉理解和对象跟踪等高级任务。在我们的日常生活中,无论是重燃尘封的回忆还是表达艺术创造,着色技术都能够起到关键作用。因此它一直是图像处理和计算机图形学研究领域中的活跃主题。图像着色是一种病态且模棱两可的问题。由于许多颜色共享同一灰度像素值,解决方案空间中存在的多模式性使得图像着色成为一项极富挑战性的任务且没有独特的标准解决方案。作为一种无需人工干预即可自动为灰度图像自动上色的图像着色技术,自动着色一直是图像着色研究领域中的一个活跃分支。与现有的大多数方法都集中在监督学习和色彩空间转换技术上以恢复原始图像的颜色不同,本文认为合理的解决方案是生成一些看起来很自然的着色结果,并且应避免成对的训练数据,以免数据收集不便。此外,本文认为无论要分配哪种颜色的区域,着色区域都应在语义和空间上保持一致。由于对应于灰度值的颜色值不是唯一的,因此严格的监督学习可能会导致不饱和着色。基于GAN的生成方案需要在语义空间上保持高度一致。为此,本文提出了一种基于非成对样本的无监督自动着色方案...

【文章来源】：江西师范大学江西省

【文章页数】：48 页

【学位级别】：硕士

【图文】：

基于语义引导的循环一致对抗图像自动着色

一个简单的图像分类神经网络，图片来源2

示意图,原理,样本,示意图

基于语义引导的循环一致对抗图像自动着色9是生成和目标分布所接近的分布。GAN的训练是一个寻求极大极小的博弈问题[40]，其最终的目的是使得生成器G所生成的样本输入给判别器D时，判别器D很难判断所给出的样本是来真实还是伪造的即生成器G生成的样本。在优化过程中，GAN需要极大化判别器D的判断能力，极小化将生成器G的输出判断为伪造的概率。在零和博弈思想下，生成器G与判别器D通过对抗训练互相优化以寻求达到均什平衡。此时，生成器G所生成的样本能够使得判别器D无法判断被给出的样本来自生成的还是真实的，即生成器G所生成的样本分布与真实样本分布高度一致。图2-2生成式对抗网络（GAN）原理示意图具体来说，给定先验分布()，生成器G尽量生成和真实数据分布()接近的分布(,)，其中由网络参数决定，因此需要找到使得生成器生成真实样本概率最大化的，如图2-2所示。由于对于生成器的生成样本的结果难以估计，模型很难通过极大似然估计得到结果。通过使用判别器D来取代极大似然估计衡量(,)与()之间的差距。对于判别器D而言，需要尽量提供给生成器生成的假样本与真实样本的不同以优化生成器下一步输出。为此，判别器D只需最小化(,)与()之间的距离，这一过程与生成器最大化形成对抗。定义GAN目标函数(,)，如公式(2-1):(,)=~[()]+~[log(1())](2-1)最终模型通过公式(2-2)求解最优生成模型：=argmaxmin(,)(2-2)Radford等人[41]提出深度卷积生成对抗网络（DCGAN）用于自然图像生成获

示意图,原文,原理,示意图

工程硕士学位论文10得了成功，GAN开始被应用于各种图像处理任务中。但GAN的训练往往比较困难，通常表现为：如果判别器D训练得太好，生成器G的损失趋近于常数，梯度为0，无法进行梯度下降；另一方面，如果判别器D训练得不好，生成器G的梯度不稳，难以收敛。原始GAN的判别器D作为真假分类器一般使用交叉熵作为损失函数计算，研究人员发现使用交叉熵作为损失函数在训练时容易发生梯度弥散，使得生成器G训练不充分。Arjovsjy等人提出WGAN[42]，通过使用Wasserstein距离替代原损失函数，提高了GAN训练的稳定性。Mao等人进一步提出了最小二乘生成对抗网络（LSGAN）[43]，利用最小二乘（LeastSquares）作为损失计算替代交叉熵来稳定训练，并进一步改善了图片生成质量。随着GAN理论的不断完善，生成式对抗模型广泛用于图像处理领域。2.3.循环一致生成对抗网络2017年，Zhu等人提出循环一致生成对抗网络CycleGAN[30]用于无监督非成对图像到图像翻译任务获得了惊艳的效果。相对于传统GAN，CycleGAN本质上是由两个镜像GNA组成并形成循环结构，如图2-3。与传统GAN接受随机噪声向量作为输入不同，CycleGAN以图像数据作为输入。图2-3CycleGAN原理示意图（引自CycleGAN原文[30]）在CycleGAN中，对于完成→转换任务来说，生成器G通过输入域图像,尽量输出与域图像相似的图像,通过将生成的域图像输入到生成器F中，期望能够重建域图像，即→→≈，形成一个循环结构。→任务同理。由此，对于→任务GAN损失函数可以被定义如公式(2-3)：(,,,)=~()[()]+~()[(1())](2-3)最终模型通过公式(2-4)求解最优生成器：

【参考文献】：
期刊论文
[1]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.  自动化学报. 2016(09)
[2]深度卷积神经网络在计算机视觉中的应用研究综述[J]. 卢宏涛,张秦川.  数据采集与处理. 2016(01)
[3]Image recoloring using geodesic distance based color harmonization[J]. Xujie Li,Hanli Zhao,Guizhi Nie,Hui Huang.  Computational Visual Media. 2015(02)

本文编号：3310634

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3310634.html

上一篇：直角坐标型机械手的运动控制方法研究
下一篇：基于格的代理重加密的安全理论研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|