首頁  >  文章  >  科技週邊  >  生成速度快SDXL一倍,9GB GPU也能運行,Stable Cascade來搞性價比了

生成速度快SDXL一倍,9GB GPU也能運行,Stable Cascade來搞性價比了

WBOY
WBOY轉載
2024-02-16 18:45:25719瀏覽
硬體需求越來越低,產生速度也越來越快。

Stability AI 作為文字到圖像的先驅,不僅引領潮流,也不斷在模型品質上取得新突破。這次,它實現了性價比的突破。

就在前幾天,Stability AI 又有新動作了:Stable Cascade 的研究預覽版被推出。這款文字到圖像模型進行了創新,它引入了一個三階段方法,為品質、靈活性、微調和效率設定了新的基準,重點是進一步消除硬體障礙。 此外,Stability AI 發布了訓練和推理程式碼,允許進一步自訂模型及其輸出。此模型可在 diffusers 庫中進行推理。該模型以非商業許可發布,僅允許非商業使用。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

  • 原文連結:https://stability.ai/news/introducing-stable-cascade

  • 程式碼位址:https://github.com/Stability-AI/StableCascade

  • #體驗位址:https://huggingface.co/spaces/multimodalart/stable-cascade

一如既往簡單操作就能夠產生目標圖像:輸入對圖像的文字描述即可。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                              圖表來源:https://twitter.com/multimo#dalart/status/17573919834#> Cascade 的產生速度極快。 X 平台用戶 @GozukaraFurkan 發文表示它只需要大約 9GB 的 GPU 內存,而且速度依舊能保持得較好。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了                             圖來源:https://twitter.com/skirano/status/175747963832##738232#12217572123822##138232#122175721138232##1382372#)23237212223332號線上#1383372#1372372#1323372#13223372#382232#1#382372#13293372#3)在生成過程中發現新模型在構圖和細節方面有明顯的提升,文字生成有了很大的進步:生成較短的單字/ 詞組正確率比較高,長句也有一定機率可以完成(限英文),文字與畫面的融合也非常好。

                               圖源:https://twitter.com/ZHOZHO672070/status/1757779330443215065

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                        圖源:https://twitter.com/tyyleai/status/1757883017329054104

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了#用戶@AIWarper 嘗試了一些不同的藝術家風格測試。

prompt:Nightmare on Elm Street。藝術家風格參考如下:左上為 Makoto Shinkai,左下為 Tomer Hanuka,右上為 Raphael Kirchner,右下為 Takato Yamamoto。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了不過,生成人物臉部時可以發現,人物的皮膚細節並不太好,有種「十級磨皮」的感覺。

                              個人資料上:https://twitter.com/vitor_dlucca/status/1757511105211105##10512#105#10512#1052

技術細節

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了Stable Cascade 與Stable Diffusion 模型系列不同, 它建立在由三個不同模型組成的管道上:階段A、B 和C。這種架構可以對影像進行分層壓縮,利用高度壓縮的潛在空間實現較出色的輸出。這幾個部分是如何組合在一起的呢?

潛像產生器階段(C 階段)將使用者輸入轉換為緊湊的24x24 潛在表徵,然後傳遞給潛在解碼器階段(階段A 和B),用於壓縮影像,這類似於Stable Diffusion 中VAE 的工作,但能夠實現更高的壓縮。

透過將文字條件產生(階段C)與解碼到高解析度像素空間(階段A 和B)解耦,我們就可以在階段C 上完成額外的訓練或微調,包括ControlNets 和LoRA ,與訓練類似大小的Stable Diffusion 模型相比,這成本可以縮減至其的十六分之一。階段 A 和 B 可以選擇性地進行微調以實現額外的控制,但這將類似於微調 Stable Diffusion 模型中的 VAE。在大多數情況下,這樣做的收益微乎其微。因此,對於大多數用途,Stability AI 官方建議僅訓練階段 C 並使用階段 A 和 B 的原始狀態。

階段 C 和 B 將發布兩種不同的模型:階段 C 的 1B 和 3.6B 參數模型,階段 B 的 700M 和 1.5B 參數模型。建議使用 3.6B 參數的模型作為階段 C,因為該模型具有最高品質的輸出。不過,對於那希望有最低硬體需求的用戶,可以使用 1B 參數版本。對於階段 B,發布的兩者都能取得很好的結果,但 1.5B 參數的版本在重建細節方面表現更佳。由於 Stable Cascade 的模組化方法,推理所需的預期 VRAM 要求可以保持在約 20GB。這可透過使用較小的變體進一步降低,需要注意的是,這也可能會降低最終輸出品質。

比較

在評估中,Stable Cascade 與幾乎所有模型比較中在 prompt 對齊和美學品質方面表現最佳。下圖顯示了使用混合的parti-prompts 和美學提示進行人類評估的結果:

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Stable Cascade(30 個推理步驟)與Playground v2(50 個推理步驟)、SDXL(50 個推理步驟)、SDXL Turbo(1 個推理步驟)和Würstchen v2(30 個推理步驟)進行了比較

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                Stable Cascade、SDXL、Playground v2 與SDXL Turbo 之間的推理速度差異#Cascade, SDXL、Playground v2 和SDXL Turbo 之間的推理速度差異128和更高的壓縮潛在空間得到了證明。儘管最大的型號比 Stable Diffusion XL 多出 1.4B 參數,但它仍然具有更快的推理時間。

附加功能

除了標準的文字到圖像生成外,Stable Cascade 還可以產生圖像變體和圖像到圖像的生成。

圖像變體透過使用 CLIP 從給定圖像中提取圖像嵌入,然後將其返回給模型。下圖是範例輸出。左側影像顯示原始影像,而其右側的四個是生成的變體。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了圖像到圖像透過簡單地向給定圖像添加噪聲,然後以此為起點生成圖像。以下是對左側影像添加噪聲,然後以此為起點進行生成的範例。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

訓練、微調、ControlNet 和LoRA 的程式碼

隨著Stable Cascade 的發布,Stability AI 將發布用於訓練、微調、ControlNet 和LoRA 的所有程式碼,以降低進一步試驗此架構的要求。以下將與模型一起發布的一些 ControlNets:

修補 / 擴圖:輸入一張圖片,並配上一個遮罩,以配合文字提示。然後,模型將根據提供的文字提示填充圖像的遮罩部分。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了Canny Edge:根據輸入模型的現有影像的邊緣產生新影像。根據 Stability AI 測試,它還可以擴展草圖。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                              頂部為輸入模型的草圖,底部為輸出結果

2 倍超解析度:將影像的解析度提升至其邊長的 2 倍,例如將 1024 x 1024 的影像轉換為 2048 x 2048 的輸出,也可以用於由階段 C 產生的潛在表示。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

這樣的性價比,你喜歡嗎?

以上是生成速度快SDXL一倍,9GB GPU也能運行,Stable Cascade來搞性價比了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除