生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

机器之心报道
机器之心编辑部

来自以色列特拉维夫大学的研究者在生成图像方面又有了新的升级 , 所用方法在保留源图像身份的同时 , 在细节编辑上实现了更精细的效果 。
英伟达提出的风格迁移模型 StyleGAN 系列 , 一直是人们用来进行各类脑洞画图实验的流行工具 。 从生成二次元「老婆」 , 照片修图 , 到人物的卡通化 , 最近几年基于这种技术的应用不一而足 。
然而 StyleGAN 也一直有着自己的不足 , 近年来的各种改进也未能让其在反向生成、细节编辑上实现精细的效果 。 什么时候我们才能让 AI 随心所欲地修改真人照片呢?
今年 6 月 , 这样的研究终于出现了 。
在以色列特拉维夫大学的论文《Pivotal Tuning for Latent-based Editing of Real Images》中 , 研究人员通过添加一个简短的训练过程 , 让 StyleGAN 有了焕然一新的升级 。
它的生成效果是这样的 , 生成更年轻和微笑的 Yann LeCun:

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

还有更年轻和面部旋转后的吴恩达:

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

下图中 , 输入小威廉姆斯、小罗伯特 · 唐尼以及小丑等人的照片 , 经过处理后 , 生成了微笑、换发型、老年、张嘴、去胡须、摆 pose 等多样化的形象:

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

不得不说 , 效果看起来真不错!
研究介绍
最近 , 一波先进的面部编辑技术被提出 , 这些技术利用预训练 StyleGAN 的图像生成能力 。 要用这种方法成功地编辑图像 , 必须首先将图像投影到预先训练好的生成器域中 。 然而 , 事实证明 , StyleGAN 的潜在空间在失真和可编辑性之间产生了内在的折衷 , 即在保持原始外观和改变其某些属性之间需要折中 。
实际上 , 这意味着将保留 ID 的面部潜在空间编辑应用于生成器域之外的面部仍然具有挑战性 。 在本文中 , 来自以色列特拉维夫大学的研究者提出了一种方法来弥补这一差距 。 该研究稍微改变了生成器 , 使得一个域外的图像如实的被映射到一个域内的潜码 。 该研究一个关键的调整 , 一个简短的训练过程 , 保留域内潜在区域的编辑质量 , 同时改变其描述的身份和外观 。

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

论文地址:https://arxiv.org/pdf/2106.05744.pdf
GitHub 地址:https://github.com/danielroich/PTI
Colab 地址:
https://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb
在研究者提出的 PTI(Pivotal Tuning Inversion)中 , 初始反向潜码充当枢轴(pivotal) , 你可以围绕它微调生成器 。 同时 , 正则化项保持附近的身份信息不变 , 保持局部信息影响 。 这种训练过程最终会改变身份的外观特征 , 而不会影响编辑能力 。 为了补充这一点 , 该研究进一步表明 , 枢轴调整(pivotal tuning)还可以调整生成器以适应多个人脸 , 同时在域的其余部分引入可忽略的失真 。
PTI 方法的示意图 。

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

该研究主要是使用 StyleGAN 为真实图像提供生成高质量的编辑 。 由于 StyleGAN 的特性 , 可以对其生成的外观进行细微的局部更改 , 而不会损害其强大的编辑功能 。 因此 , 给定一张图像 , 可能外观看起来不正常(例如一个人处在极端的照明条件下 , 或浓妆艳抹 , 或夸张的发型和头饰) , 该研究建议在生成器的域内找到最近的可编辑点 。 然后这些点可以被拉向目标 , 对周围的域影响微乎其微 , 对其他域的影响也微乎其微 。
实验
实验采用 StyleGAN2 生成器, 对于面部图像 , 研究者使用在 FFHQ 数据集上预训练的生成器进行处理 , 并使用 CelebA-HQ 数据集进行评估 。 此外 , 该研究还收集了一些其他名人的图像 , 以突出显示该研究保持身份的能力 。
研究者采用以下指标:像素级距离 MSE、感知相似度 LPIPS 、结构相似度 MS SSIM 、以及利用预训练的人脸识别网络实现身份相似度 。 结果如下表所示 。 可以得出在每个指标上 , 该研究都是最佳得分 。

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

如下图所示 , 即使不考虑可编辑性 , 该研究的方法对所有的例子都获得了较好的重建效果 , 特别是域外的例子 , 因为该方法是唯一可以成功的重建具有挑战性的细节 , 如脸部绘画或手等细节 。

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

此外 , 该研究提出的方法还能够重建很多细节 , 如妆容、光线、皱纹等 。

生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

图 6 显示了对 CelebA-HQ 数据集的编辑比较 , 演示了姿势(顶部)和微笑收敛(底部)编辑 。 由结果可得在 SG2 W + 上的编辑不会产生所需的效果 , 例如 , 底部行中的嘴没有闭合 。 SG2 和 e4e 实现了更好的编辑 , 但失去了原有的身份 。 PTI 在保持身份的同时实现了高质量的编辑 。
【生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你】
生成器|年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你
文章图片

    推荐阅读