熬煮书栗子 乾明 发自 凹非寺

当前生成图像最逼真的BigGAN被超出了!

出手的,是谷歌大年夜脑和苏黎世联邦理工学院。他们提出了新一代GAN:S³GAN

它们生成的照片,都是真假难辨。

下面这两只蝴蝶,哪只更活泼?

两张风景照片,哪张更真实?

难以决定也正常,反正都是假的。上面的照骗,都是左边出自S³GAN,右边的出自BigGAN之手。

它们还有更多作品:

至于哪些是S³GAN,谜底文末揭晓。

肉眼难决雌雄,就用数据措辞。跑个FID(Frechet Inception Distance)得分,分值越低,就表示这些照骗,越接近人类熟悉里的真实照片——

S³GAN是8.0分,而BigGAN是8.4分。新选手略微胜出。

如今它不止被超出,并且是被轻松超出。

“轻松”在哪呢?

假如用上20%的标注数据,S³GAN的后果又会更上一层楼。

标注数据的缺乏,已经是帮GAN进步生成才能,拓展应用处景的一大年夜瓶颈。如今,这个瓶颈已经几乎被打破。

如今的S³GAN,只经由了ImageNet的实验,是实现用更少标注数据练习生成高保真图像的第一步。

接下来,作者们想要把这种技巧应用到“更大年夜”和“更多样化”的数据集中。



不消标注那么多

为什么练习GAN生成图像,须要大年夜量数据标注呢?

GAN有生成器、判别器两大年夜组件。

个中判别器要一向地识破假图像,鼓励生成器拿出更逼真的图像。

而图像的标注,就是给判别器做断定根据的。比如,这是真的猫,这是真的狗,这是真的汉堡……这是假图。

可是,没有那么多标注数据怎么办?

谷歌和ETH苏黎世的研究人员,决定练习AI本身标注图像,给判别器食用。

自监督 vs 半监督

要让判别器本身标注图像,有两种办法。

一是自监督办法,就是给判别器加一个特点提取器(Feature Extractor) ,从没有标注的真实练习数据里面,学到它们的表征 (Feature Representation) 。

对这个表征做聚类 (Clustering) ,然后把聚类的分派成果,当成标注来用。

这里的练习,用的是自监督损掉函数。

二是半监督办法,也要做特点提取器,但比上一种办法复杂一点点。

在练习集的一个子集已经标注过的情况下,根据这些已知信息来进修表征,同时练习一个线性分类器(Linear Classifier) 。

别的,他们还在GitHub上开源了论文中实验所用全部代码:

如许,损掉函数会在自监督的基本上,再加一项半监督的交叉熵损掉 (Cross-Entropy Loss) 。

预练习了特点提取器,就可以拿去练习GAN了。这个用一小部分已知标注养成的GAN,叫做S²GAN

不过,预练习也不是独一的办法。

想要双管齐下,可以用协同练习(Co-Training) :

如许就有了S²GAN的协同版,叫S²GAN-CO

进级一波 

然后,团队还想让S²GAN变得更强大年夜,就在GAN练习的稳定性上面花了心思。

研究人员说,判别器本身就是一个分类器嘛,假如把这个分类器扩增 (Augmentation) 一下,可能疗效上佳。

于是,他们给了分类器一个额外的自监督义务,就是为扭转扩增过的练习集 (包含真图和假图) ,做个猜测。

再把这个步调,和前面的半监督模型结合起来,GAN的练习变得加倍稳定,就有了进级版S³GAN

架构脱胎于BigGAN

不管是S²GAN照样S³GAN,都借用了前辈BigGAN的收集架构,用的优化超参数也和前辈一样。

不合的是,这个研究中,没有应用正交正则化 (Orthogonal Regularization) ,也没有应用截断 (Truncation) 技能。

BigGAN的生成器和辨别器架构图



练习的数据集,来自ImageNet,个中有130万练习图像和5万测试图像,图像中共有1000个类别。

图像尺寸被调剂成了128×128×3,在每个类别中随机选择k%的样本,来获取半监督办法中的应用的部分标注数据集。

最后,在128核的Google TPU v3 Pod进行练习。

超出BigGAN

研究比较的基线,是DeepMind的BigGAN,当前记录的保持者,FID得分为7.4

不过,他们在ImageNet上本身实现的BigGAN,FID为8.4,IS为75,并以此作为了标准。

你可还记得BigGAN问世之初,直接将图像生成的逼真度进步了一个Level,引来Twitter上花样赞美?





在这个图表中,S²GAN是半监督的预练习办法。S²GAN-CO是半监督的协同练习办法。

S³GAN,是S²GAN加上一个自监督的线性分类器 (把数据集扭转扩增之后再拿给它分类) 。

个中,后果最好的是S³GAN,只应用10%由人工标注的数据,FID得分达到8.0,IS得分为78.7,表示均优于BigGAN。

直接在判别器的表征上面,练习一个半监督的线性分类器,用来猜测没有标注的图像。这个过程,和GAN的练习一同进行。

假如你对这项研究感兴趣,请收好传送门:

论文:

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

S³GAN达到这么好的后果,只用了10%的人工标注数据。而老前辈BigGAN,练习所用的数据100%是人工标注过的。



文章开首的这些照骗展示,就出自论文之中:

第一行是BigGAN作品,第二行是S³GAN新品,你猜对了吗?

https://github.com/google/compare_gan

声明:该文观点仅代表作者本人,南宁资讯网系信息发布平台,本站仅提供信息存储空间服务。