搜尋
首頁科技週邊人工智慧第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網絡(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。

AIGC爆火的背後,從技術的角度來看,是影像生成模型的架構發生了巨大的變化。

隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網路(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

從GAN切換到擴散模型的架構轉變也引出了一個問題:能否透過擴大GAN模型的規模,比如說在LAION 這樣的大型資料集中進一步提升效能嗎?

最近,針對增加StyleGAN架構容量會導致不穩定的問題,來自浦項科技大學(韓國)、卡內基美隆大學和Adobe研究院的研究人員提出了一種全新的生成對抗網路架構GigaGAN,打破了模型的規模限制,展示了GAN 仍然可以勝任文字到圖像合成模型。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

論文連結:https://arxiv.org/abs/2303.05511

專案連結:https://mingukkang. github.io/GigaGAN/

GigaGAN有三大優勢。

1. 它在推理時速度更快,相比同量級參數的Stable Diffusion-v1.5,在512分辨率的生成速度從2.9秒縮短到0.13秒。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

2. 可以合成高解析度的影像,例如,在3.66秒內合成1600萬像素的影像。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

3. 支援各種潛空間編輯應用程序,如潛插值、樣式混合和向量算術運算等。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

GAN到極限了嗎?

最近發布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,開創了影像生成的新時代,在影像品質和模型靈活性方面達到了前所未有的水平。

現在占主導地位的範式「擴散模型」和「自回歸模型」,都依賴於迭代推理這把雙刃劍,因為迭代方法能夠以簡單的目標進行穩定的訓練,但在推理過程中會產生更高的計算成本。

與此形成對比的是生成對抗網路(GAN),只需要一次forward pass即可生成影像,因此本質上是更有效率的。

雖然GAN模型主導了生成式建模的「前一個時代」,但由於訓練過程中的不穩定性,對GAN進行擴展需要仔細調整網路結構和訓練考慮,因此GANs雖然在為單一或多個物件類別建模方面表現出色,但擴展到複雜的資料集上(更不用說開放世界物體生成了),仍然具有挑戰性。

所以目前超大型的模型、資料和運算資源都主要集中在擴散和自迴歸模型上。

在這項工作中,研究人員主要解決以下問題:

#GAN能否繼續擴大規模並有可能從這些資源中受益?或者說GAN已經到達極限了?是什麼阻礙了GAN的進一步擴展?能否克服這些障礙?

穩定訓練GAN

研究人員首先用StyleGAN2進行實驗,觀察到簡單地擴展骨幹網會導致不穩定的訓練,在確定了幾個關鍵問題後,提出了在增加模型容量的同時穩定訓練的技術。

首先,透過保留一個濾波器庫(a bank of filters),並採取一個特定樣本的線性組合來有效地擴展生成器的容量。

改編了幾個在擴散模型上下文中常用的技術,並確認它們可以為GANs帶來了類似的性能提升,例如將自註意力機制(僅圖像)和交叉注意力(圖像-文字)與卷積層交織在一起可以提高性能。

此外,研究人員重新引入了多尺度訓練(multi-scaletraining),找到了一個新的方案可以改善圖像-文字對齊和產生輸出的低頻細節。

多尺度訓練可以讓基於GAN的生成器更有效地使用低解析度區塊中的參數,從而具有更好的影像-文字對齊和影像品質。

生成器

#

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

GigaGAN的生成器由文字編碼分支(text encoding branch)、樣式映射網路(style mapping network)、多尺度綜合網路(multi-scale synthesis network)組成,並輔以穩定注意力(stable attention)和自適應核選擇(adaptive kernel selection)。

在文字編碼分支中,首先使用一個預先訓練好的CLIP 模型和一個學習的注意層T 來提取文字嵌入,然後將嵌入過程傳遞給樣式映射網路M,產生與StyleGAN 類似的樣式向量w

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

#合成網路採用樣式編碼作為modulation,以文字嵌入作為注意力來產生image pyramid,在此基礎上,引入樣本自適應核選擇演算法,實現了基於輸入文字條件的捲積核自適應選擇。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

與生成器類似,GigaGAN的判別器由兩個分支組成,分別用於處理影像和文字條件。

文字分支處理類似生成器的文字分支;影像分支接收一個image pyramid作為輸入並對每個影像尺度進行獨立的預測。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

在公式中引入了多個額外的損失函數以促進快速收斂。

實驗結果

對大規模文字-影像合成任務進行系統性的、受控的評估是困難的,因為大多數現有的模型並不公開可用,即使訓練代碼可用,從頭開始訓練新模型的成本也會過高。

研究人員選擇在實驗中與Imagen、Latent Diffusion Models(LDM)、Stable Diffusion和Parti進行對比,同時承認在訓練資料集、迭代次數、批次大小和模型大小方面存在相當大的差異。

對於定量評估指標,主要使用Frechet Inception Distance(FID)來衡量輸出分佈的真實性,並使用CLIP分數來評估圖像-文字對齊。

文中進行了五個不同的實驗:

#1. 透過逐步納入每個技術元件來展示提出方法的有效性;

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

2. 文字-影像合成結果表明,GigaGAN表現出與穩定擴散(SD-v1.5)相當的FID,同時產生的結果比擴散或自迴歸模型快數百倍;

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

3. GigaGAN 將GigaGAN與基於蒸餾的擴散模型進行對比,顯示GigaGAN可以比基於蒸餾的擴散模型更快地合成更高品質的圖像;

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

##4. 驗證了GigaGAN的上取樣器在有條件和無條件的超解析度任務中比其他上取樣器的優勢;

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

5. 結果顯示大規模GANs仍享有GANs的連續和分解潛伏空間的操作,實現了新的影像編輯模式。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

經過調參,研究人員在大規模的資料集,如LAION2B-en上實現了穩定和可擴展的十億參數GAN(GigaGAN)的訓練。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

並且該方法採用了多階段的方法,首先在64×64下生成,然後上取樣到512 ×512,這兩個網路是模組化的,而且足夠強大,能夠以即插即用的方式使用。

#######

結果表明,儘管在訓練時從未見過擴散模型的圖像,但基於文字條件的GAN上採樣網路可以作為基礎擴散模型(如DALL-E 2)的高效、高品質的上採樣器。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

這些成果加在一起,使得GigaGAN遠遠超過了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

雖然GiGAN的10億參數量仍低於最近發布的最大合成模型,如Imagen(3B)、 DALL-E 2(5.5B)和Parti(20B),但目前還沒有觀察到關於模型大小的質量飽和度。

GigaGAN在COCO2014資料集上實作了9.09的zero-shot FID,低於DALL-E 2、Parti-750M和Stable Diffusion的FID

應用場景

提示插值(Prompt interpolation)

#GigaGAN可以在提示之間平滑地插值,下圖中的四個角落是由同一潛碼生成,但有不同的文字提示。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

解耦提示混合(Disentangled prompt mixing)

GigaGAN 保留了一個分離的潛空間,使得能夠將一個樣本的粗樣式與另一個樣本的精細樣式結合起來,並且GigaGAN 可以透過文字提示直接控制樣式。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

粗到精風格交換(Coarse-to-fine sytle swapping)

#基於GAN 的模型架構保留了一個分離的潛在空間,使得能夠將一個樣本的粗樣式與另一個樣本的精樣式混合在一起。

第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素

參考資料:

https://mingukkang.github.io/GigaGAN/

以上是第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具