不用卷积，也能生成清晰图像，华人博士生首次尝试用两个Transformer构建一个GAN( 二 ) 球体|建筑|阿尔瓦|世博会|迪拜

具体操作上，上采样模块首先将 1D 序列的 token 嵌入变形为 2D 特征图，然后采用 pixelshuffle 模块对 2D 特征图的分辨率进行上采样处理，并下采样嵌入维数，最终得到输出。然后，2D 特征图 X’_0 再次变形为嵌入 token 的 1D 序列，其中 token 数为 4HW，嵌入维数为 C/4。所以，在每个阶段，分辨率（H, W）提升到两倍，同时嵌入维数 C 减少至输入的四分之一。这一权衡（trade-off）策略缓和了内存和计算量需求的激增。
研究者在多个阶段重复上述流程，直到分辨率达到（H_T , W_T ）。然后，他们将嵌入维数投影到 3，并得到 RGB 图像。
用于判别器的 tokenized 输入
与那些需要准确合成每个像素的生成器不同，该研究提出的判别器只需要分辨真假图像即可。这使得研究者可以在语义上将输入图像 tokenize 为更粗糙的 patch level（Dosovitskiy 等人，2020）。
如上图 1 右所示，判别器以图像的 patch 作为输入。研究者将输入图像分解为 8 × 8 个 patch，其中每个 patch 可被视为一个「词」。然后，8 × 8 个 patch 通过一个线性 flatten 层转化为 token 嵌入的 1D 序列，其中 token 数 N = 8 × 8 = 64，嵌入维数为 C。再之后，研究者在 1D 序列的开头添加了可学得位置编码和一个 [cls] token。在通过 Transformer 编码器后，分类 head 只使用 [cls] token 来输出真假预测。
实验CIFAR-10 上的结果
研究者在 CIFAR-10 数据集上对比了 TransGAN 和近来基于卷积的 GAN 的研究，结果如下表 5 所示：

文章插图

如上表 5 所示，TransGAN 优于 AutoGAN (Gong 等人，2019) ，在 IS 评分方面也优于许多竞争者，如 SN-GAN (Miyato 等人， 2018)、improving MMDGAN (Wang 等人，2018a)、MGAN (Hoang 等人，2018)。TransGAN 仅次于 Progressive GAN 和 StyleGAN v2。
对比 FID 结果，研究发现，TransGAN 甚至优于 Progressive GAN，而略低于 StyleGANv2 (Karras 等人，2020b)。在 CIFAR-10 上生成的可视化示例如下图 4 所示：
STL-10 上的结果
研究者将 TransGAN 应用于另一个流行的 48×48 分辨率的基准 STL-10。为了适应目标分辨率，该研究将第一阶段的输入特征图从（8×8）=64 增加到（12×12）=144，然后将提出的 TransGAN-XL 与自动搜索的 ConvNets 和手工制作的 ConvNets 进行了比较，结果下表 6 所示：

文章插图

与 CIFAR-10 上的结果不同，该研究发现，TransGAN 优于所有当前的模型，并在 IS 和 FID 得分方面达到新的 SOTA 性能。
高分辨率生成
由于 TransGAN 在标准基准 CIFAR-10 和 STL-10 上取得不错的性能，研究者将 TransGAN 用于更具挑战性的数据集 CelebA 64 × 64，结果如下表 10 所示：

文章插图

TransGAN-XL 的 FID 评分为 12.23，这表明 TransGAN-XL 可适用于高分辨率任务。可视化结果如图 4 所示。
局限性虽然 TransGAN 已经取得了不错的成绩，但与最好的手工设计的 GAN 相比，它还有很大的改进空间。在论文的最后，作者指出了以下几个具体的改进方向：

对 G 和 D 进行更加复杂的 tokenize 操作，如利用一些语义分组 (Wu et al., 2020)。
使用代理任务（pretext task）预训练 Transformer，这样可能会改进该研究中现有的 MT-CT。
更加强大的注意力形式，如 (Zhu 等人，2020)。
更有效的自注意力形式 (Wang 等人，2020；Choromanski 等人，2020)，这不仅有助于提升模型效率，还能节省内存开销，从而有助于生成分辨率更高的图像。

本文（含图片）为合作媒体授权创业邦转载，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系