基于场景图的细粒度图像生成模型
发布时间:2021-06-28 19:45
在早期的文本生成图像的研究中,可变分自动编码器VAE是最常用的方法,它可以通过编码文本然后解码来生成相应的图像。但是由于可变分自动编码器VAE模型本身存在局限,导致生成图像质量一般。当前文本生成图像主要使用生成对抗网络GAN的方法,生成对抗网络GAN恰好能解决图像生成质量不好的问题,为了解决VAE模型的局限,生成器训练生成图像的数据分布来欺骗鉴别器,同时对鉴别器进行优化以区分真实的样本和由生成器产生的错误样本。目前为止,大多数文本生成图像的论文都仅针对生成单个物体的图像,对于单物体的生成效果有较大的进步。但是对于在一幅图像中生成多个物体的图像研究较少,虽然使用场景图能够解决在一个图像中生成多个物体的问题,但网络并没有很好的处理图像中物体的细节。并且在模型的训练过程中,图像生成的稳定性不够,造成图像质量有所下降。为了解决图像中物体缺乏细节的效果,本文提出在掩码回归网络中增加自注意力机制的方法对物体细节进行填充。由于大多数文本生成图像的模型都采用的是卷积GAN,卷积GAN中的卷积操作会受到局部感受域的影响,如果一个物体在图像中所占用区域过大,卷积核则无法提取该物体所占用的整个区域,导致提取...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
单个图卷积层的计算图[5]
第2章基于场景图的图像生成模型-16-(()))的期望最小化。固定生成器,调整鉴别器的参数使log()+log(1(()))的期望最大化。这种相互学习的过程可以看作是“二元极小极大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)虽然不需要一个假设的数据分布是GAN最大的优势,但是这种不需要一个假设的数据分布的方式太自由,相对分辨率较高的图像,传统的GAN就不太可控。CGAN[31]是传统GAN的一个改进版,通过给GAN添加一些约束,在生成器和鉴别器的建模中通过引入条件变量y引导数据的生成,其中,条件变量可以是类别数据,也可以是不同模式的数据。CGAN的生成器中,将噪声分布和条件数据组成隐层变量。在鉴别器中,真实图像或者生成图像和条件数据作为鉴别器的输入。条件GAN的具体如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的计算图如图2-5所示。图2-5条件生成对抗网络的计算图[31]2.4图像生成模型的损失函数在该实验中,本文通过使用一对鉴别器和训练图像生成网络f来生成逼
哈尔滨工业大学工学硕士学位论文-20-由于大多数文本到图像模型都基于深度卷积GAN[3,16,18],因此GAN善于生成具有较少结构约束的图像,比如草地,云,山等。但是GAN很难捕捉物体中出现的几何特征,例如通常具有明确定义的脚和逼真的羽毛纹理的鸟类。出现这样的问题是因为卷积操作会受到局部感受域的影响,在卷积运算的过程中,左上角卷积出来结果和右下角卷积出来的结果之间没有任何联系。图3-1卷积操作示例图如图3-1所示,左上角输出的‘3’和特征图的其他区域没有联系。同样在计算特征图的任何部分的时候,除了计算输出的图像中的小局部区域之外,它和任何的其它部分都没有直接的联系。当然我们也可以通过使用更大的卷积来捕获更大的空间,但是这样会较低卷积操作的计算效率,并且使得操作变慢;或者我们也可以使用更深的网络把各个区域联系起来,但是网络结构太深会意味着太多的参数,会使得GAN的训练愈加不稳定。之前的模型[11,17]在较大程度上依赖于卷积来学习图像中不同区域的特征。由于卷积算子在局部感受野上操作,因而仅能在通过多个卷积层后解决长距离依赖性。为了解决远程依赖的能力,本文借用了自注意力机制生成对抗网络(SAGAN)[33]的思想,并将自注意力机制添加到掩码回归网络中以改进物体掩码的细节。自注意力机制模块是卷积的补充,有助于建模跨图像区域的远程,多级依赖关系。借助自注意力机制,生成器能够绘制图像,其中每个区域的信息都和图像中远处区域的信息有关。此外,由于自注意力机制能有效的找到全局的,长期的依赖关系,鉴别器能更好的对图像中每个物体实行复杂的几何约束。
【参考文献】:
硕士论文
[1]基于DCGAN算法的图像生成技术研究[D]. 蔡晓龙.青岛理工大学 2018
本文编号:3254937
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
单个图卷积层的计算图[5]
第2章基于场景图的图像生成模型-16-(()))的期望最小化。固定生成器,调整鉴别器的参数使log()+log(1(()))的期望最大化。这种相互学习的过程可以看作是“二元极小极大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)虽然不需要一个假设的数据分布是GAN最大的优势,但是这种不需要一个假设的数据分布的方式太自由,相对分辨率较高的图像,传统的GAN就不太可控。CGAN[31]是传统GAN的一个改进版,通过给GAN添加一些约束,在生成器和鉴别器的建模中通过引入条件变量y引导数据的生成,其中,条件变量可以是类别数据,也可以是不同模式的数据。CGAN的生成器中,将噪声分布和条件数据组成隐层变量。在鉴别器中,真实图像或者生成图像和条件数据作为鉴别器的输入。条件GAN的具体如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的计算图如图2-5所示。图2-5条件生成对抗网络的计算图[31]2.4图像生成模型的损失函数在该实验中,本文通过使用一对鉴别器和训练图像生成网络f来生成逼
哈尔滨工业大学工学硕士学位论文-20-由于大多数文本到图像模型都基于深度卷积GAN[3,16,18],因此GAN善于生成具有较少结构约束的图像,比如草地,云,山等。但是GAN很难捕捉物体中出现的几何特征,例如通常具有明确定义的脚和逼真的羽毛纹理的鸟类。出现这样的问题是因为卷积操作会受到局部感受域的影响,在卷积运算的过程中,左上角卷积出来结果和右下角卷积出来的结果之间没有任何联系。图3-1卷积操作示例图如图3-1所示,左上角输出的‘3’和特征图的其他区域没有联系。同样在计算特征图的任何部分的时候,除了计算输出的图像中的小局部区域之外,它和任何的其它部分都没有直接的联系。当然我们也可以通过使用更大的卷积来捕获更大的空间,但是这样会较低卷积操作的计算效率,并且使得操作变慢;或者我们也可以使用更深的网络把各个区域联系起来,但是网络结构太深会意味着太多的参数,会使得GAN的训练愈加不稳定。之前的模型[11,17]在较大程度上依赖于卷积来学习图像中不同区域的特征。由于卷积算子在局部感受野上操作,因而仅能在通过多个卷积层后解决长距离依赖性。为了解决远程依赖的能力,本文借用了自注意力机制生成对抗网络(SAGAN)[33]的思想,并将自注意力机制添加到掩码回归网络中以改进物体掩码的细节。自注意力机制模块是卷积的补充,有助于建模跨图像区域的远程,多级依赖关系。借助自注意力机制,生成器能够绘制图像,其中每个区域的信息都和图像中远处区域的信息有关。此外,由于自注意力机制能有效的找到全局的,长期的依赖关系,鉴别器能更好的对图像中每个物体实行复杂的几何约束。
【参考文献】:
硕士论文
[1]基于DCGAN算法的图像生成技术研究[D]. 蔡晓龙.青岛理工大学 2018
本文编号:3254937
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3254937.html
最近更新
教材专著