首頁 >科技週邊 >人工智慧 >全員離開老東家，Stable Diffusion一作帶團創業，出手即擊敗MJ v6、SD3，還開源

全員離開老東家，Stable Diffusion一作帶團創業，出手即擊敗MJ v6、SD3，還開源

PHPz原創: 2024-08-05 16:06:52936瀏覽

AI 影像和影片產生領域又加入了一個頗有實力的玩家。

還記得今年 3 月底，從 AI 新創公司 Stability AI 離職的研究科學家 Robin Rombach 嗎？作為發展出文生圖模型 Stable Diffusion 的兩位主要作者之一，他於 2022 年加入 Stability AI。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

如今，在從 Stability AI 離職近五個月後，Robin Rombach 發推宣布了自己創業的好消息！

他成立了“Black Forest Labs”，旨在推進用於圖像和視頻的SOTA 高質量生成式深度學習模型，並開放給盡可能多的人使用。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

團隊成員由傑出的AI 研究者和工程師組成，他們之前的代表性工作包括VQGAN 和Latent Diffusion、圖像和視頻生成領域的Stable Diffusion 模型（包括Stable Diffusion XL、Stable Video Diffusion 和Rectified Flow Transformers）以及用於超快速即時影像合成的Adversarial Diffusion Distillation。

值得注意的是，除了 Robin Rombach 之外，Stable Diffusion 還有三位作者成為了創始團隊成員，包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他們都在今年早些時候離開了 Stability AI，有人猜測他們當初離開就是為了自己創業。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

目前，該 Labs 已經完成 3100 萬美元的種子輪融資，由 Andreessen Horowitz 領投。其他投資者包括了天使投資人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和創業專家。另外也獲得了來自 General Catalyst 和 MätchVC 的後續投資。

該Labs 也成立了顧問委員會，成員包括在內容創作行業具有廣泛經驗的科技大佬Michael Ovitz 和神經風格遷移先驅、歐洲開放AI 研究的頂級專家Matthias Bethge 教授。

當然，Black Forest Labs 推出了首個模型系列「FLUX.1」，包含了以下三個變體模型。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

第一個變體是FLUX.1 [pro]，它是全新的SOTA 文生圖模型，具有極為豐富的影像細節、極強的prompt 遵循能力和多樣化風格。目前可以透過 API 使用。

API 位址：https://docs.bfl.ml/

第二個是FLUX.1 [dev]

，它是FLUX.1 [pro] 的開放權重、非商用變體，並直接基於後者蒸餾而成。此模型的表現優於 Midjourney 和 Stable Diffusion 3 等其他影像模型。推理程式碼和權重已經放在了 GitHub 上。下圖是與競品圖像模型的比較。

GitHub 網址：https://github.com/black-forest-labs/flux

第三個是開源的

FLUX.1 [schnell]

，它是超高效的4-step 模型，遵循了Apache 2.0 協定。模型在性能上與 [dev]、[pro] 非常接近，可以在 Hugging Face 上使用。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

同時，Black Forest Labs 也開始宣傳自己了。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

下一步的目標是推出所有人可用的 SOTA 文生視訊模型，大家可以期待一波了！

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

一文生手圖模式FLUX.1」來襲

這次Black Forest Labs 推出的三款模型，均採用了多模態與平行擴散Transformer 的混合架構。有別於其他家將一系列模型依參數量分為「中盃」、「大杯」、「超大杯」，FLUX.1 家族的成員統一擴展為 120 億參數的龐大規模。

研究團隊採用了流匹配（Flow Matching）框架對先前 SOTA 擴散模型進行了升級。從官方部落格的註釋中可以推測，研究團隊沿用了還在 Stability AI 任職時（今年 3 月）提出的 Rectified flow+Transformer 方法。

論文連結：https://arxiv.org/pdf/2403.03206.pdf

他們也引入了旋轉位置嵌入和平行注意力層。這些方法有效提高了模型生成圖片的效能，在硬體設備上產生圖片的速度也變得更快了。

這次 Black Forest Labs 並未公開模型的詳細技術，不過更詳細的技術報告將很快公佈。

這三款模型在各自的領域都確立了新標準。無論是生成影像的美觀度、影像與文字提示字的附和度、尺寸/ 寬高比變異性、或輸出格式的多樣性， FLUX.1 [pro] 與FLUX.1 [dev] 都超越了一系列當紅圖片產生模型，如Midjourney v6.0、DALL・E 3 (HD) 以及老東家SD3-Ultra。

FLUX.1 [schnell] 是迄今為止最先進的少步驟模型（few-step model），不僅超越了同類競爭對手，還超越了像Midjourney v6 .0 和DALL・E 3 (HD) 這樣的強大非蒸餾模型。

模型經過專門微調，以保留預訓練階段的全部輸出多樣性。與目前最先進的技術相比，FLUX.1 系列車型也保留了充分的進步空間。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源