小伙伴关心的问题:Galactic Cafe(galactic matter),本文通过数据整理汇集了Galactic Cafe(galactic matter)相关信息,下面一起看看。

Galactic Cafe(galactic matter)

CAFE-GAN: Arbitrary Face Attribute Editing with Complementary Attention Feature 学习笔记

paper​arxiv.org/pdf/2011.11900.pdf

解决问题

面部属性编辑的目的是根据给定的目标属性(例如,头发的颜色,胡须,性别等)更改面部图像。已经有一些工作集中在利用对抗性生成网络(GAN)进行面部属性编辑。这些方法已取得了一些成功,但它们也导致面部区域意外变化,这意味着生成器会更改与指定属性无关的区域。为了解决这个意想不到的变化问题,提出了一种新颖的GAN模型,该模型通过补充注意特征Complementary attention feature(CAFE)的仅编辑与目标属性相关的面部部分。

解决问题的方法

视觉解释,通过突出识别关键的响应区域而有效地解释了卷积神经网络(CNN),被认为可以解决这个问题。模型主要是由注意力分支网络(ABN)推动的,该网络将基于响应的视觉解释扩展到注意力机制。在ABN中,注意力分支采用中间的特征,然后提取注意力特征图。然后,通过全球平均池化层(GAP)对注意力特征图进行下采样,随后将其用作分类概率。但是,基于响应的视觉解释方法的问题在于它们只能提取图像中已经存在的属性的注意力特征图。因此,这些方法仅在操纵现有属性(例如去除胡须或更改头发颜色)时有效。

为了解决这个问题,提出了一种通过补充注意特征(CAFE)的新概念来识别输入图像中不存在的属性区域的方法。通过创建补充属性矢量的想法,即使输入图像缺少指定的属性,CAFE也会根据输入属性来识别要转换的区域。借助CAFE,鉴别器可以生成和利用所有属性的空间关注特征图。

CAFE通过同时考虑目标属性和“补充属性”(我们将其定义为输入面部图像中不存在的那些属性)来识别要转换的面部区域。此外,引入了一种补充的特征匹配,以帮助训练生成器以利用属性的空间信息。

内容

鉴别器

鉴别器D同时接受真实图像和由G修改的假图像作为输入。 D由三个主要部分组成,即 DattrD_{attr} , DadvD_{adv} 和 DclsD_{cls} 。与其他任意属性编辑方法不同,空间注意机制应用于鉴别器中的中间特征 f。DattrD_{attr} 通过采用补充特征图在应用注意力机制中扮演着重要角色。 DattrD_{attr} 由一个注意分支(AB)和一个补充注意分支(CAB)组成,生成k个注意图, M = {M1M_{1} ,..., MkM_{k} },它们来自AB的关注图 *** ,包含输入图像中重要属性区域,而CAB的 McM^{c} = { M1cM_{1}^{c} ,...,MkcM_{k}^{c} }包含不存在的偶然的属性区域。 这些注意图通过注意机制应用于中级特征,例如

fi′=f∙Mif_{i}^{} = f\bullet M_{i}

fi″=f∙Micf_{i}^{} = f\bullet M_{i}^{c}

采用注意力分支(AB)来标识ABN之后与属性相关的区域。 AB获取输入图像的中间特征,并生成具有1×1×k卷积层的h×w×k注意特征(AF),用A表示。k表示A中的信道数,与属性数相同。 h和w分别表示特征图的高度和宽度。 AB输出具有1×1×k卷积层和Sigmoid层的k个注意图M1M_{1} ,... MkM_{k} 。它还通过全局平均池化(GAP)输出每个属性类的激活。通过GAP将h×w×k注意特征图A转换为1×1×k特征图,以产生具有Sigmoid层的每个类别的概率分。当给出真实图像(源图像)作为输入时,将概率分与标签和交叉熵损失进行比较,以最大程度地减少分类错误训练D。因此AB的注意力损失为

其中x是真实图像, vs(i)v_{s}^{(i)} 表示源属性向量的第i个值。 DAB(i)(x)D_{AB}^{(i)}(x) 表示AB输出的第i个概率分。 所以A中每个通道的值都与相应属性的激活直接相关。 AB可以提取A,A代表关于输入图像中包含的属性的空间信息。 但是,A不包括有关图像中不存在的属性的信息,因为如果第i个属性不在输入图像中,则特征图A的第i个通道Ai将没有响应。

这方面不会影响ABN之类的分类模型,因为它只需要激活与输入图像中显示的正确属性相对应的通道即可。但是,为了处理任意属性,即使输入图像不具有该属性,生成模型也必须能够预期相关的空间区域。因此,将现有的视觉解释方法直接应用于属性编辑模型的判别器是有局限性的。为了解决这个问题,提出了补充注意力的概念,用整合CAB实现。CAB的概念很直观,它提取了CAFE,用AcA^{c} 表示,代表图像中不存在的属性区域。例如,如果胡须不在输入图像中,CAB检测到该属性在脸部下方。利用互补属性向量实现这种逆类激活。

因此,CAB的注意力损失可表述为

CAB旨在生成用于注意力机制的一组注意力图McM^{c} 。因此,A应该包含空间信息以帮助 DclsD_{cls} 进行分类属性。换句话说, AcA^{c} 代表不存在属性的原因区域。借助AB和CAB,我们的模型提取了所有属性的注意力特征图,因为A和AcA^{c} 是互补的。换句话说,对于任何第i个属性,如果 AiA^{i} 没有响应值,则 AicA_{i}^{c} 具有它们,反之亦然。

两组注意力图M和 McM^{c} 分别是AB和CAB的输出,对应属性具有不同的激活。换句话说,M关于输入图像的现有属性,而McM^{c} 关于输入图像的不存在属性。在注意力机制之后,将变换后的特征转发到 DclsD_{cls} 中的两个多属性分类器,分类器1和分类器2分别用f和f对图像的正确标签进行分类。每个分类器输出每个属性具有交叉熵损失的概率。为了区分,它学会使用两种不同的注意力机制对真实图像x进行分类,即

其中 Dcls1D_{cls1} 和Dcls2D_{cls2} 分别代表使用注意力图 *** M = { M1M_{1} ,..., MkM_{k} }和Mc = { M1cM_{1}^{c} ,..., MkcM_{k}^{c} }的两个分类器。 因此,CAFE可以表示不存在的属性的空间信息的原因是CAB必须生成注意力图,该图可以帮助提高分类器的性能,同时通过GAP对不存在的属性做出反应。

在D中,还有一个分支 DadvD_{adv} 区分实像x和假像y,以确保通过对抗性学习获得视觉上逼真的输出。采用 WGAN-GP中对抗性损失,因此D的对抗性损失为

生成器

生成器G将源图像x和目标属性标签 vtv_{t} 都作为输入,然后进行x到y的变换,用y = G(x,vtv_{t} )表示。 G的目标是生成具有根据 vtv_{t} 的属性的图像y,同时保持x的身份。 G由两个部分组成:编码器 GencG_{enc} 和解码器 GdecG_{dec} 。GencG_{enc} 根据给定的源图像x将图像编码为潜在表示z。 然后,解码器生成具有潜在特征z和目标属性矢量 vtv_{t} 的假图像y。 计算源和目标属性向量之间的差异属性向量 vdv_{d} ,并将其用作解码器的输入。

vd=vt−vsv_{d} = v_{t} - v_{s}

z=Genc(x)z = G_{enc}(x)

y=Gdec(z,vd)y = G_{dec}(z, v_{d})

另外,在 GencG_{enc} 和 GdecG_{dec} 之间采用 STGAN中使用的跳过连接方法,来最大程度地减少由于下采样而导致的精细尺度信息的丢失。 之后,D将源图像x和编辑图像y都作为输入。 G旨在生成可通过Dcls1D_{cls1} 和 Dcls2D_{cls2} 分类为目标属性的图像,因此G的分类损失定义为

尽管判别器中的 DattrD_{attr} 可以获取有关所有属性的空间信息,但有必要确保G具有更改给定目标属性的相关区域的能力。源图像和编辑图像的注意力特征图在对应于已更改属性的属性图上应不同,而其余注意力特征图应相同。因此,我们提出了一种新颖的互补匹配方法,如下图。对于不变的属性,编辑图像的注意特征图应与源图像的注意特征图相同。换句话说,当属性保持相同时,G学会将编辑图像的AF与源图像的AF进行匹配,G也从源图像的CAFE进行学习。当给定的目标属性不同于源图像时,G学习将已编辑图像的AF与源图像的CAFE相匹配(图中的红色箭头)。令{A(x)A^{(x)} , A(c(x))A^{(c(x))} }和{ A(y)A^{(y)} , A(c(y))A^{(c(y))} }分别表示来自两个不同样本的AF和CAFE的 *** ,这两个样本分别是真实图像x和假图像y。对变化的属性进行互补匹配,因此互补匹配损失定义为

对于GAN的对抗训练,还采用了WGAN-GP 中使用的对抗损失,即

尽管生成器可以使用LGclsL_{G_{cls}} 编辑面部属性并使用 LGadvL_{G_{adv}} 生成逼真的图像,但它应该保留图像的身份。 因此,当差异属性向量为零时,G应该重建源图像。 我们采用像素级重建损失,即

模型目标

数据集

使用CelebFaces Attributes(CelebA)数据集,该数据集由202599名名人的面部图像组成。 每个图像都带有40个二进制属性标签,并被裁剪为178×218。将每个图像裁剪为170×170,并调整为128×128。λattr=λDcls=λCM=1\lambda_{attr} = \lambda_{D_{cls}} = \lambda_{CM} = 1 ,λGcls\lambda_{G_{cls}} = 10, λrec\lambda_{rec} =100。采用ADAM solver,其中β1= 0.5和β2= 0.999,并且初始设置学习率0.0002,并设置为在100个周期后衰减到0.0001。

评估指标

属性分类准确度

总结

提出了一种新颖的基于补充注意特征(CAFE)的面部属性编辑方法,仅编辑与目标属性相关的面部部分。引入了一种补充特征匹配损失,帮助训练生成器来合成具有正确的给定属性的图像,并在适当的面部区域进行合成。

Reference

Jeong gi Kwak, David K. Han, and Hanseok Ko. CAFE-GAN: Arbitrary Face Attribute Editing with Complementary Attention Feature. 2020.

更多Galactic Cafe(galactic matter)相关信息请关注本站,本文仅仅做为展示!