VQGAN: Taming Transformers for High-Resolution Image Synthesis

原创

武乐乐～ 2024-07-08 14:43:36 ©著作权

文章标签 计算机视觉 ide Image 建模 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者武乐乐～的原创作品，请联系作者获取转载授权，否则将追究法律责任

论文名称：Taming Transformers for High-Resolution Image Synthesis

发表时间：CVPR2021
作者及组织： Patrick Esser*, Robin Rombach*, Bjorn Ommer, 来自Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany。

前言

本文类似VQVAE，区别在于引入了GAN的思想来强制codebook学到更逼真的图像成分表示，另外，自回归模型替换成了长序建模更强的Transformer来替代PixelCNN。（在codebook上进行自回归是因为Transformer计算代价大）。

1、方法

VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide

1.1.codebook学习

这块类似VQVAE，损失函数类似：
$VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_02$
其中 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_03$ 表示Decoder的生成图， $VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_04$

1.2.+GAN

$VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_05$ ，来判断每块特征图 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_06$

$VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_07$

其中 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_08$ 是原始图像， $VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_03$ 是Decoder生成图。另外，VQGAN使用了 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_计算机视觉_10$

1.3.自回归

在codebook训练完成后，将其置为推理阶段，然后推理图像并根据codebook得到gt索引，并用Transformer来自回归预测下一个索引。自回归损失用一个交叉熵即可：
$VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_11$