首頁  >  文章  >  科技週邊  >  GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

PHPz
PHPz轉載
2023-04-12 15:43:031405瀏覽

影像生成是目前 AIGC 領域最熱門的方向之一。近期發布的影像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等,開創了影像生成的新時代,實現了前所未有的影像品質和模型靈活性水準。擴散模型也成為目前主導的典範。然而,擴散模型依賴迭代推理,這是一把雙刃劍,因為迭代方法可以實現具有簡單目標的穩定訓練,但推理過程需要高昂的計算成本。

在擴散模型之前,生成對抗網路(GAN)是影像生成模型中常用的基礎架構。相較於擴散模型,GAN 透過單一前向傳遞產生影像,因此本質上是更有效率的,但由於訓練過程的不穩定性,擴展 GAN 需要仔細調整網路架構和訓練因素。因此,GAN 擅長對單一或多個物件類別進行建模,但擴展到複雜資料集(更不用說現實世界)則極具挑戰性。因此,超大型模型、數據和計算資源現在都專用於擴散模型和自回歸模型。

但作為一種高效的生成方法,許多研究者並沒有完全放棄 GAN 方法。例如,最近英偉達提出了 StyleGAN-T 模型;港中文等用基於 GAN 的方法生成流暢視頻,這些都是 CV 研究者在 GAN 上做的進一步嘗試。

現在,在一篇CVPR 2023 論文中,來自POSTECH、卡內基美隆大學和Adobe 研究院的研究者們共同探討了關於GAN 的幾個重要問題,包括:

  • #GAN 能否繼續擴大規模並從大量資源中受益,GAN 遇到瓶頸了嗎?
  • 是什麼阻止了 GAN 的進一步擴展,我們能否克服這些障礙?

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

  • #論文連結:https://arxiv.org/abs/2303.05511
  • 專案連結:https://mingukkang.github.io/GigaGAN/

# #值得注意的是,CycleGAN 的主要作者、曾獲2018 年ACM SIGGRAPH 最佳博士論文獎的朱俊彥是這篇CVPR 論文的第二作者。

該研究首先使用 StyleGAN2 進行實驗,並觀察到簡單地擴展主幹網路會導致訓練不穩定。基於此,研究者確定了幾個關鍵問題,並提出了一種在增加模型容量的同時穩定訓練的技術。

首先,該研究透過保留一組濾波器(filter)並採用特定於樣本的線性組合來有效地擴展生成器的容量。該研究也採用了擴散上下文(diffusion context)中常用的幾種技術,並證實它們為 GAN 帶來了類似的好處。例如,將自註意力(僅圖像)和交叉注意力(圖像 - 文字)與卷積層交織在一起可以提高模型性能。

該研究還重新引入了多尺度訓練,並提出一種新方案來改進圖像 - 文字對齊和生成輸出的低頻細節。多尺度訓練允許基於 GAN 的生成器更有效地使用低解析度區塊中的參數,從而實現了更好的影像 - 文字對齊和影像品質。經過仔細調整後,研究提出了十億參數的新模型 GigaGAN,並在大型資料集(例如 LAION2B-en)上實現了穩定且可擴展的訓練,實驗結果如下圖 1 所示。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

此外,研究也採用了多階段方法[14, 104],首先以64 × 64 的低解析度產生影像,然後再上取樣到512 × 512 解析度。這兩個網路是模組化的,而且足夠強大,能夠以即插即用的方式使用。

該研究表明,基於文字條件的 GAN 上採樣網路可以用作基礎擴散模型的高效且更高品質的上採樣器,如下圖 2 和圖 3 所示。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

上述改進使GigaGAN 遠遠超越了以前的GAN:比StyleGAN2 大36 倍,比StyleGAN-XL 和XMC-GAN 大6 倍。雖然GigaGAN 十億(1B)的參數量仍然低於近期的大型合成模型,例如Imagen (3.0B)、DALL・E 2 (5.5B) 和Parti (20B),但研究者表示他們尚未觀察到關於模型大小的質量飽和。

GigaGAN 在 COCO2014 資料集上實作了 9.09 的零樣本 FID,低於 DALL・E 2、Parti-750M 和 Stable Diffusion。


此外,與擴散模型和自回歸模型相比,GigaGAN 具有三大實用優勢。首先,它的速度快了幾十倍,在 0.13 秒內產生了 512 像素的影像(圖 1)。其次,它可以在 3.66 秒內合成 4k 解析度的超高解析度影像。第三,它具有可控的潛在向量空間,適用於經過充分研究的可控影像合成應用,例如風格混合(圖 6)、prompt 插值(圖 7)和 prompt 混合(圖 8)。


GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

該研究成功地在數十億現實世界圖像上訓練了基於GAN 的十億參數規模模型GigaGAN。這表明 GAN 仍然是文字到圖像合成的可行選擇,研究人員應考慮將其用於未來的積極擴展。

方法概覽

研究者訓練了一個生成器G (z, c),在給定一個潛在編碼z∼N (0, 1)∈R ^128 和文字調節訊號c 的情況下,預測一個影像x∈R^(H×W×3)。他們使用一個判別器 D (x, c) 來判斷生成的圖像的真實性,與訓練資料庫 D 中的樣本相比較,後者包含圖像 - 文字對。

儘管 GAN 可以成功地在單類別和多類別資料集上產生真實的影像,但在網路影像上進行開放式文字條件合成仍然面臨挑戰。研究者假設,目前的限制源自於其對卷積層的依賴。也就是說,同樣的捲積濾波器被用來為圖像所有位置上的所有文字條件進行通用圖像合成函數建模,這是一個挑戰。有鑑於此,研究者試圖透過根據輸入條件動態選擇卷積濾波器,並透過注意力機制捕捉長程依賴,為參數化注入更多的表現力。

GigaGAN 高容量文字 - 影像產生器如下圖 4 所示。首先,研究者使用預先訓練的 CLIP 模型和學習過的編碼器 T 來提取文本嵌入。使用交叉注意力將局部文字描述符提供給生成器。全域文字描述符,連同潛在編碼 z,被送入風格映射網路 M 以產生風格碼 w。風格碼使用論文中的風格 - 自適應內核選擇調節主生成器,如右側所示。

生成器透過將中間特徵轉換為 RGB 影像來輸出一個影像金字塔。為了達到更高的容量,研究者在每個尺度上使用多個注意力層和卷積層(附錄 A2)。他們還使用了一個單獨的上採樣器模型,該模型未在此圖中顯示。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

判別器由兩個分支組成,用於處理影像和文字調節 t_D。文字分支對文字的處理與生成器類似(圖 4)。影像分支接收一個影像金字塔,並對每個影像尺度進行獨立預測。此外,預測是在下採樣層的所有後續尺度上進行的,這使得它成為一個多尺度輸入、多尺度輸出(MS-I/O)的判別器。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

#########實驗結果

在論文中,作者記錄了五個不同的實驗。

在第一個實驗中,他們透過逐一納入每個技術組件來展示所提方法的有效性。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

在第二個實驗中,他們測試了模型文生圖的能力,結果顯示,GigaGAN 表現出與Stable Diffusion(SD-v1.5)相當的FID,同時產生的結果比擴散或自迴歸模型快得多。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

在第三個實驗中,他們將GigaGAN 與基於蒸餾的擴散模型進行比較,結果顯示,GigaGAN 能比基於蒸餾的擴散模型更快合成更高品質的圖像。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

在第四個實驗中,他們驗證了GigaGAN 的上取樣器在有條件和無條件的超分辨率任務中相比其他上採樣器的優勢。

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

#最後,他們展示了自己提出的大規模GAN 模型仍然享受GAN 的連續和解糾纏的潛在空間操作,從而實現了新的圖像編輯模式。圖表請參考上文中的圖 6 和圖 8。


#

以上是GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除