它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

图源:摄图网

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

迩来,CV 接收者对 transformer 暴发了极大的喜好并赢得了不少冲破。这表露,transformer 有大约变成安置机视觉处事(如分门别类、检验和测定和分割)的洪大通用模型。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

我们都很猎奇:在安置机视觉范畴,transformer 还能走多远?对于越发沉重的视觉处事,比如天才对抗收集 (GAN),transformer 展现又还好吗?

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

在这种少年心的激动下,德州大学奥斯汀分校的 Yifan Jiang、Zhangyang Wang,IBM Research 的 Shiyu Chang 等接收者举行了第一次观察性接收,创造了一个只应用纯 transformer 框架结构、十足没有卷积的 GAN,并将其命名为 TransGAN。与其它基于 transformer 的视觉模型比较,仅应用 transformer 创造 GAN 有如更具调唆性,这是因为与分门别类等处事比较,真实图像天才的门坎更高,而且 GAN 演示自己完备较高的不宁靖性。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

舆论链接:https://arxiv.org/pdf/2102.07074.pdf

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

代码链接:https://github.com/VITA-Group/TransGAN

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

从结构上去看,TransGAN 囊括两个控制:一个是外部存储器融洽的基于 transformer 的天才器,该天才器无妨慢慢普遍个性辩别率,同声诽谤嵌入维数;另一个是基于 transformer 的 patch 级辩别器。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

接收者还创作,TransGAN 鲜明受益于数据坚韧(胜过典型的 GAN)、天才器的多处事共通演示战略和延长自然图像邻域润滑的控制初始化自堤防力。那些创作表露,TransGAN 无妨有效地夸大至更大的模型和完备更高辩别率的图像数据集。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

考查截至表露,与尚且基于卷积主干的 SOTA GAN 比较,展现最佳的 TransGAN 举行了极具竞赛力的天性。几乎来说,TransGAN 在 STL-10 上的 IS 评阅为 10.10,FID 为 25.32,举行了新的 SOTA。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

该接收表露,对于卷积主干以及很多专用模块的附丽大约不是 GAN 所必然的,纯 transformer 有充溢的本事天才图像。

它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

在该舆论的联系安置中,有读者群摆弄道,「attention is really becoming『all you need』.」

然而,也有控制接收者表露了自己的担忧:在 transformer 囊括一切社区的大后盾下,势单力薄的小考查室要怎样活下来?

纵然 transformer 真的变成社区「刚需」,还好吗普及这类框架结构的安置工作效率将变成一个辣手的接收标题。

基于纯 Transformer 的 GAN举措前提块的 Transformer 源代码器

接收者沿用将 Transformer 源代码器(Vaswani 等人,2017)举措前提块,并纵然举行最小水平的变幻。源代码器由两个元件形成,第一个元件由一个多头自堤防力模块构造而成,第二个元件是完备 GELU 非线性的前馈 MLP(multiple-layer perceptron,多层感知器)。其余,接收者在两个元件之前均应用了层归一化(Ba 等人,2016)。两个元件也都应用了残差贯串。

外部存储器融洽的天才器

NLP 中的 Transformer 将每个词举措输入(Devlin 等人,2018)。然而,纵然以普遍的本事过程堆叠 Transformer 源代码器来逐像素地天才图像,则低辩别率图像(如 32×32)也大约开辟长序列(1024)以及更振动的自堤防力开销。

以是,为了遏制过高的开销,接收者受到了基于 CNN 的 GAN 中常见安置看法的开拓,在多个阶段迭代地普及辩别率(Denton 等人,2015;Karras 等人,2017)。她们的战略是慢慢缩小输入序列,并诽谤嵌入维数。

如次图 1 左所示,接收者提出了囊括多个阶段的外部存储器融洽、基于 Transformer 的天才器:

每个阶段堆叠了数个源代码器块(默认为 5、2 和 2)。过程度段式安置,接收者慢慢缩小个性图辩别率,直到其达到手段辩别率 H_T×W_T。几乎来说,该天才器以随机噪声举措其输入,并过程一个 MLP 将随机噪声传递给长度为 H×W×C 的向量。该向量又变形为辩别率为 H×W 的个性图(默认 H=W=8),每个点都是 C 维嵌入。尔后,该个性图被视为长度为 64 的 C 维 token 序列,并与可学得的场合源代码相贯穿。

与 BERT(Devlin 等人,2018)普遍,该接收提出的 Transformer 源代码器以嵌入 token 举措输入,并递归地安置每个 token 之间的共同。为了合因素辨率更高的图像,接收者在每个阶段之后插入了一个由 reshaping 和 pixelshuffle 模块形成的上采集样品模块。

几乎安排上,上采集样品模块发端将 1D 序列的 token 嵌入变形为 2D 个性图,尔后沿用 pixelshuffle 模块对 2D 个性图的辩别率举行上采集样品处治,并下采集样品嵌入维数,结果赢得输出。尔后,2D 个性图 X’_0 再次变形为嵌入 token 的 1D 序列,其中 token 数为 4HW,嵌入维数为 C/4。以是,在每个阶段,辩别率(H, W)普及到两倍,同声嵌入维数 C 缩小至输入的四分之一。这一测量(trade-off)战略宁靖了外部存储器和安置量须要的猛增。

接收者在多个阶段重复上述进程,直到辩别率达到(H_T , W_T )。尔后,她们将嵌入维数投影到 3,并赢得 RGB 图像。

用来辩别器的 tokenized 输入

与那些需要透彻合成每个像素的天才器各别,该接收提出的辩别器只需要辩别真伪图像即可。这使得接收者无妨在语义上将输入图像 tokenize 为更精制的 patch level(Dosovitskiy 等人,2020)。

如上海图书馆 1 右所示,辩别器以图像的 patch 举措输入。接收者将输入图像领会为 8 × 8 个 patch,其中每个 patch 可被视为一个「词」。尔后,8 × 8 个 patch 过程一个线性 flatten 层变革为 token 嵌入的 1D 序列,其中 token 数 N = 8 × 8 = 64,嵌入维数为 C。再之后,接收者在 1D 序列的发源填补了可学得场合源代码和一个 [cls] token。在过程 Transformer 源代码器后,分门别类 head 只应用 [cls] token 来输出真伪探求。

考查CIFAR-10 上的截至

接收者在 CIFAR-10 数据集上比拟了 TransGAN 和迩来基于卷积的 GAN 的接收,截至如次表 5 所示:

如上表 5 所示,TransGAN 优于 AutoGAN (Gong 等人,2019) ,在 IS 评阅上面也优于很多竞赛者,如 SN-GAN (Miyato 等人, 2018)、improving MMDGAN (Wang 等人,2018a)、MGAN (Hoang 等人,2018)。TransGAN 仅次于 Progressive GAN 和 StyleGAN v2。

比拟 FID 截至,接收创作,TransGAN 及至优于 Progressive GAN,而略低于 StyleGANv2 (Karras 等人,2020b)。在 CIFAR-10 上天才的可视化示比如下图 4 所示:

STL-10 上的截至

接收者将 TransGAN 应用于另一个时尚的 48×48 辩别率的基准 STL-10。为了适合手段辩别率,该接收将第一阶段的输入个性图从(8×8)=64 缩小到(12×12)=144,尔后将提出的 TransGAN-XL 与机动商量的 ConvNets 和细工创作的 ConvNets 举行了比较,截至下表 6 所示:

与 CIFAR-10 上的截至各别,该接收创作,TransGAN 优于十足尚且的模型,并在 IS 和 FID 得分上面达到新的 SOTA 天性。

高辩别率天才

由于 TransGAN 在典型基准 CIFAR-10 和 STL-10 上赢得不错的天性,接收者将 TransGAN 用来更具调唆性的数据集 CelebA 64 × 64,截至如次表 10 所示:

TransGAN-XL 的 FID 评阅为 12.23,这表露 TransGAN-XL 可适用于高辩别率处事。可视化截至如图 4 所示。

遏制性纵然 TransGAN 保持赢得了不错的工作效率,但与最好的细工业安全置的 GAN 比较,它再有很大的校正空间。在舆论的截止,作者指出了以次几个几乎的校正手段:

对 G 和 D 举行越发搀杂的 tokenize 安排,如应用一些语义分批 (Wu et al., 2020)。

应用代庖处事(pretext task)试演练 Transformer,多么大约会校正该接收中现有的 MT-CT。

越发洪大的堤防力情事,如 (Zhu 等人,2020)。

更有效的自堤防力情事 (Wang 等人,2020;Choromanski 等人,2020),这不只有助于普及模型工作效率,还能简朴外部存储器开销,从而无助于于天生辨别率更高的图像。

正文(含图片)为融合媒体授权易木资源连载,不代办易木资源作风,连载请接收改编家。如有任何异议,请接收editor@cyzone.cn。

相关说明
1、所有资料搜集与网络仅供学习交流。
2、链接失效或者其他问题,请联系邮箱:951493490#qq.com(#换成@)
3、所有收取的费用,仅用于维系网站运营,性质为友情赞助,并非售卖文件费用。
4、如侵犯您的权益,请联系管理员。
易木资源 » 它也可以生成清晰的图像而不会卷积。第一次,一名中国博士生试图用两台变形金刚构建GAN

发表评论

提供最优质的资源集合

立即查看 了解详情