AI 影像和影片產生領域又加入了一個頗有實力的玩家。
還記得今年 3 月底,從 AI 新創公司 Stability AI 離職的研究科學家 Robin Rombach 嗎?作為發展出文生圖模型 Stable Diffusion 的兩位主要作者之一,他於 2022 年加入 Stability AI。 如今,在從 Stability AI 離職近五個月後,Robin Rombach 發推宣布了自己創業的好消息! 他成立了“Black Forest Labs”,旨在推進用於圖像和視頻的SOTA 高質量生成式深度學習模型,並開放給盡可能多的人使用。 團隊成員由傑出的AI 研究者和工程師組成,他們之前的代表性工作包括VQGAN 和Latent Diffusion、圖像和視頻生成領域的Stable Diffusion 模型(包括Stable Diffusion XL、Stable Video Diffusion 和Rectified Flow Transformers)以及用於超快速即時影像合成的Adversarial Diffusion Distillation。 值得注意的是,除了 Robin Rombach 之外,Stable Diffusion 還有三位作者成為了創始團隊成員,包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他們都在今年早些時候離開了 Stability AI,有人猜測他們當初離開就是為了自己創業。 目前,該 Labs 已經完成 3100 萬美元的種子輪融資,由 Andreessen Horowitz 領投。其他投資者包括了天使投資人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和創業專家。另外也獲得了來自 General Catalyst 和 MätchVC 的後續投資。 該Labs 也成立了顧問委員會,成員包括在內容創作行業具有廣泛經驗的科技大佬Michael Ovitz 和神經風格遷移先驅、歐洲開放AI 研究的頂級專家Matthias Bethge 教授。 當然,Black Forest Labs 推出了首個模型系列「FLUX.1」,包含了以下三個變體模型。 第一個變體是FLUX.1 [pro],它是全新的SOTA 文生圖模型,具有極為豐富的影像細節、極強的prompt 遵循能力和多樣化風格。目前可以透過 API 使用。 - API 位址:https://docs.bfl.ml/
,它是FLUX.1 [pro] 的開放權重、非商用變體,並直接基於後者蒸餾而成。此模型的表現優於 Midjourney 和 Stable Diffusion 3 等其他影像模型。推理程式碼和權重已經放在了 GitHub 上。下圖是與競品圖像模型的比較。
-
GitHub 網址:https://github.com/black-forest-labs/flux
FLUX.1 [schnell]
,它是超高效的4-step 模型,遵循了Apache 2.0 協定。模型在性能上與 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。
Hugging Face 網址:https://hugging.co/black-forest-labs/FLUX.1-schnell
同時,Black Forest Labs 也開始宣傳自己了。 下一步的目標是推出所有人可用的 SOTA 文生視訊模型,大家可以期待一波了! 這次Black Forest Labs 推出的三款模型,均採用了多模態與平行擴散Transformer 的混合架構。有別於其他家將一系列模型依參數量分為「中盃」、「大杯」、「超大杯」,FLUX.1 家族的成員統一擴展為 120 億參數的龐大規模。 研究團隊採用了流匹配(Flow Matching)框架對先前 SOTA 擴散模型進行了升級。從官方部落格的註釋中可以推測,研究團隊沿用了還在 Stability AI 任職時(今年 3 月)提出的 Rectified flow+Transformer 方法。 - 論文連結:https://arxiv.org/pdf/2403.03206.pdf
他們也引入了旋轉位置嵌入和平行注意力層。這些方法有效提高了模型生成圖片的效能,在硬體設備上產生圖片的速度也變得更快了。 這次 Black Forest Labs 並未公開模型的詳細技術,不過更詳細的技術報告將很快公佈。 這三款模型在各自的領域都確立了新標準。無論是生成影像的美觀度、影像與文字提示字的附和度、尺寸/ 寬高比變異性、或輸出格式的多樣性, FLUX.1 [pro] 與FLUX.1 [dev] 都超越了一系列當紅圖片產生模型,如Midjourney v6.0、DALL・E 3 (HD) 以及老東家SD3-Ultra。 FLUX.1 [schnell] 是迄今為止最先進的少步驟模型(few-step model),不僅超越了同類競爭對手,還超越了像Midjourney v6 .0 和DALL・E 3 (HD) 這樣的強大非蒸餾模型。 模型經過專門微調,以保留預訓練階段的全部輸出多樣性。與目前最先進的技術相比,FLUX.1 系列車型也保留了充分的進步空間。 所有FLUX.1 系列的模型都支援多種縱橫比和分辨率,從0.1 到2 百萬像素,都能拿下。 已經有動作快的網友搶先體驗上了,看來 Black Forest Labs 反覆強調的「最強」,不只是自賣自誇。 簡單的提示詞,就可以打造出這樣的效果,仔細看羊駝身上墊子的花紋,也沒有出現扭曲和變形。 提示中:An 🎜>如果不說這是AI 生成的圖片,也挺難分辨這是不是攝影師拍的照片。 🎜>
含有文字的影像,也能輕鬆拿捏,景深也處理得很符合真實的鏡頭感。 三款模型中,表現稍弱的FLUX.1 [schnell],用起來也是又快又強,有網友曬出在Mac 上運行的體驗,不得不感慨,真是立等可取。
不太了解Stable Diffusion 的作者們和Stability AI 之間「恩怨情仇」的網友感嘆道:不知道從哪裡冒出來了個文生圖模型,簡直強到可怕。
關於Stable Diffusion 作者和前司Stability AI 的故事,可以看看本站之前的報道:
價值1億美金時,Stable Diffusion背後的團隊開始互撕,誰才是真官方? 除了三款最強的文生圖模型,Black Forest Labs 還憋著「大招」呢。有瞭如此強大的圖片生成模型的能力,Black Forest Labs 為視頻生成模型打下了堅實的基礎,正如他們所預告的,這些計算機視覺的頂級科學家們正朝著為所有人提供的最先進文生視頻技術的目標前進。
參考連結:
公司部落格:https://blackforlabs .ai/announcements/
以上是全員離開老東家,Stable Diffusion一作帶團創業,出手即擊敗MJ v6、SD3,還開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!