今年3月末にAIスタートアップStability AIを辞任した研究科学者Robin Rombachを覚えていますか? Vincent グラフ モデル Stable Diffusion を開発した 2 人の主要著者のうちの 1 人として、彼は 2022 年に Stability AI に加わりました。

さて、Stability AI を辞めてからほぼ 5 か月後、Robin Rombach は自分のビジネスを始めるという良いニュースをツイートしました。

彼は、画像やビデオ用の SOTA 高品質生成深層学習モデルを発展させ、できるだけ多くの人が利用できるようにするために「Black Forest Labs」を設立しました。

チームメンバーは、優れた AI 研究者とエンジニアで構成されており、これまでの代表的な研究には、VQGAN、潜在拡散、画像およびビデオ生成分野の安定拡散モデル (安定拡散 XL、安定ビデオ拡散、および整流を含む) が含まれます。 Flow Transformers) と Adversarial Diffusion Distillation による超高速リアルタイム画像合成。

Stable Diffusion には、Robin Rombach に加えて、Andreas Blattmann、Dominik Lorenz、Patrick Esser を含む 3 人の著者が創設チームのメンバーになっていることに注目する価値があります。両氏は今年初めにStability AIを退職しており、一部では自分のビジネスを始めるために退職したのではないかと推測されている。

現在、研究所はAndreessen Horowitz率いる3,100万ドルのシードラウンドを完了しました。他の投資家には、エンジェル投資家のブレンダン・イリベ氏、マイケル・オーヴィッツ氏、ギャリー・タン氏、ティモ・アイラ氏、ヴラドレン・コルトゥン氏、および著名なAI研究および起業家の専門家が含まれます。また、General Catalyst と MätchVC からも追加投資を受けました。


もちろん、Black Forest Labs は最初のモデル シリーズ「FLUX.1」を発売しました。これには以下の 3 つのバリエーション モデルが含まれます。
FLUX.1 [pro]で、非常に豊富な画像詳細、強力なプロンプト追従機能、および多様なスタイルを備えた新しい SOTA Vincent ダイアグラム モデルです。現在API経由で利用可能です。

  • APIアドレス: https://docs.bfl.ml/
FLUX.1 [dev]で、これはFLUX.1のオープンバージョンです[ pro] の重み、非商用のバリアントであり、後者に基づいて直接抽出されます。このモデルは、Midjourney や Stable Diffusion 3 などの他の画像モデルよりも優れています。推論コードと重みはすでに GitHub で入手できます。下の図は競合イメージモデルとの比較です。

  • GitHubアドレス: https://github.com/black-forest-labs/flux
FLUX.1 [schnell]、それはスーパーですApache 2.0 プロトコルに準拠した効率的な 4 ステップ モデル。このモデルは [dev] と [pro] のパフォーマンスに非常に近く、ハグフェイスでも使用できます。

  • ハグフェイスアドレス: https://huggingface.co/black-forest-labs/FLUX.1-schnell

Gleichzeitig begann Black Forest Labs auch, Werbung für sich selbst zu machen.

Das nächste Ziel ist die Einführung des SOTA Wensheng-Videomodells, das für alle verfügbar ist, jeder kann sich darauf freuen!
... Eine Hybridarchitektur für multimodale und parallele Diffusionstransformatoren. Im Gegensatz zu anderen Unternehmen, die eine Modellreihe nach der Anzahl der Parameter in „Medium Cup“, „Large Cup“ und „Extra Large Cup“ einteilen, wurden die Mitglieder der FLUX.1-Familie einheitlich auf einen riesigen Maßstab von 12 erweitert Milliarden Parameter.

Das Forschungsteam hat das Flow Matching-Framework übernommen, um das vorherige SOTA-Diffusionsmodell zu aktualisieren. Aus den Notizen im offiziellen Blog lässt sich ableiten, dass das Forschungsteam die vorgeschlagene Methode „Rectified flow+Transformer“ befolgte, als es noch bei Stability AI arbeitete (im März dieses Jahres).

Link zum Papier: https://arxiv.org/pdf/2403.03206.pdf

Sie führten auch die Einbettung gedrehter Positionen und parallele Aufmerksamkeitsebenen ein. Diese Methoden verbessern effektiv die Leistung des Modells bei der Generierung von Bildern, und auch die Geschwindigkeit der Bildgenerierung auf Hardwaregeräten ist schneller geworden. 全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
Dieses Mal hat Black Forest Labs die detaillierte Technologie des Modells nicht bekannt gegeben, ein detaillierterer technischer Bericht wird jedoch bald veröffentlicht. 全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
  • Diese drei Modelle haben in ihren jeweiligen Bereichen neue Maßstäbe gesetzt. Ob es um die Schönheit der generierten Bilder geht, darum, wie gut die Bilder in die Textaufforderungen passen, um die Variabilität des Größen-/Seitenverhältnisses oder um die Vielfalt der Ausgabeformate – FLUX.1 [pro] und FLUX.1 [dev] übertreffen alle Möglichkeiten von beliebten Bilderzeugungsmodellen wie Midjourney v6.0, DALL・E 3 (HD) und SD3-Ultra.

FLUX.1 [schnell] ist das bisher fortschrittlichste Wenig-Schritte-Modell und übertrifft nicht nur ähnliche Konkurrenten, sondern auch solche wie Midjourney v6.0 und DALL・E 3 (HD). So ein leistungsstarkes Non -destilliertes Modell.

Das Modell ist speziell darauf abgestimmt, die volle Leistungsvielfalt der Vortrainingsphase beizubehalten. Auch die Modelle der FLUX.1-Serie lassen im Vergleich zum aktuellen Stand der Technik noch viel Raum für Verbesserungen.

Alle Modelle der FLUX.1-Serie unterstützen mehrere Seitenverhältnisse und Auflösungen von 0,1 bis 2 Megapixel.

Einige schnell handelnde Internetnutzer haben es bereits als Erste erlebt. Es scheint, dass das „Stärkste“, das Black Forest Labs immer wieder betont hat, nicht nur Eigenwerbung ist.
Einfache Aufforderungswörter können einen solchen Effekt erzeugen. Wenn man sich das Muster der Alpaka-Matte genau ansieht, gibt es keine Verzerrung oder Verformung.

                                                                                                                                                                                                            Prompt word: An emerald Emu riding on top of a white llama.

                                                                                                                                                                                              Prompt word: A horse is playing with two aligators at the river.全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

Images with text can also be handled very realistically Lens feel .

Among the three models, FLUX.1 [schnell], which is slightly weaker in performance, is also fast and powerful to use. Some netizens shared their experience of running it on Mac and couldn’t help but sigh, it is really worth it.
Netizens who don’t know much about the “grievances” between the authors of Stable Diffusion and Stability AI lamented: A Vincentian graph model appeared out of nowhere, and it is simply terrifyingly powerful.

For the story of the author of Stable Diffusion and the former company Stability AI, you can read the previous reports on this site:
When the value was 100 million US dollars, the team behind Stable Diffusion began to fight each other. Who is the real official?

In addition to the three most powerful Vincentian models, Black Forest Labs also has a "big move" in store. With such powerful capabilities for image generation models, Black Forest Labs has laid a solid foundation for video generation models, and as they foretell, these top scientists in computer vision are moving towards state-of-the-art video technology for everyone. goal forward.

Reference link:

Company blog: https://blackforestlabs.ai/announcements/

