Another powerful player has been added to the field of AI image and video generation.
Remember the research scientist Robin Rombach who resigned from the AI startup Stability AI at the end of March this year? As one of the two main authors who developed the Vincent graph model Stable Diffusion, he joined Stability AI in 2022. Now, nearly five months after leaving Stability AI, Robin Rombach tweeted the good news of starting his own business! He established "Black Forest Labs" to advance SOTA high-quality generative deep learning models for images and videos and make them available to as many people as possible. Team members are composed of outstanding AI researchers and engineers. Their previous representative work includes VQGAN and Latent Diffusion, Stable Diffusion models in the field of image and video generation (including Stable Diffusion XL, Stable Video Diffusion and Rectified Flow Transformers) and Adversarial Diffusion Distillation for ultra-fast real-time image synthesis. It is worth noting that in addition to Robin Rombach, Stable Diffusion has three other authors who have become founding team members, including Andreas Blattmann, Dominik Lorenz and Patrick Esser. They both left Stability AI earlier this year, with some speculating that they left to start their own businesses. Currently, the Labs has completed a $31 million seed round of financing, led by Andreessen Horowitz. Other investors include angel investors Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun and some well-known AI research and entrepreneurial experts. It also received follow-on investments from General Catalyst and MätchVC. The Labs has also established an advisory board, whose members include Michael Ovitz, a technology tycoon with extensive experience in the content creation industry, and Professor Matthias Bethge, a pioneer in neural style transfer and a top expert in open AI research in Europe. Of course, Black Forest Labs has launched its first model series "FLUX.1", which includes the following three variant models. The first variant is FLUX.1 [pro], which is a new SOTA Vincent diagram model with extremely rich image details, strong prompt following capabilities and diverse styles. Currently available via API. - API address: https://docs.bfl.ml/
The second one is FLUX.1 [dev], which is the open version of FLUX.1 [pro] weights, non-commercial variants, and are distilled directly based on the latter. This model outperforms other image models such as Midjourney and Stable Diffusion 3. The inference code and weights have been placed on GitHub. The picture below is a comparison with competing image models. - GitHub address: https://github.com/black-forest-labs/flux
The third one is open source FLUX.1 [schnell], it is super Efficient 4-step model, following the Apache 2.0 protocol. This model is very close to [dev] and [pro] in performance and can be used on Hugging Face. - Hugging Face Address: https://huggingface.co/black-forest-labs/FLUX.1-schnell
同時に、Black Forest Labs も宣伝を始めました。 次の目標は、誰でも利用できるSOTA Wenshengビデオモデルをローンチすることです。誰もがそれを楽しみにしています! 即時の成功:ヴィンセントフィギュアモデルシリーズ「FLUX.1」が登場今回、Black Forest Labsが発売した3つのモデルはすべて...マルチモーダルおよび並列拡散変圧器のためのハイブリッド アーキテクチャ。他社がパラメーターの数に応じてシリーズモデルを「ミディアムカップ」「ラージカップ」「エクストララージカップ」に分けるのとは異なり、FLUX.1ファミリーのメンバーは一律12種類という巨大なスケールに拡張されています。億のパラメータ。 研究チームは、以前のSOTA拡散モデルをアップグレードするためにフローマッチングフレームワークを採用しました。公式ブログのメモから、研究チームがまだStability AIで働いていた頃(今年3月)に提案されたRectified flow+Transformer手法に従ったことが推測できます。 - 論文リンク: https://arxiv.org/pdf/2403.03206.pdf
また、回転位置埋め込みと並列アテンション レイヤーも導入されました。これらの方法により、画像生成時のモデルのパフォーマンスが効果的に向上し、ハードウェア デバイスでの画像生成速度も高速になりました。 今回、Black Forest Labsはモデルの詳細な技術を公開していませんが、より詳細な技術レポートが近々公開される予定です。 これら 3 つのモデルは、それぞれの分野で新たな基準を打ち立てました。生成された画像の美しさ、画像がテキスト プロンプトにどの程度適合するか、サイズ/アスペクト比の可変性、またはさまざまな出力形式であっても、FLUX.1 [pro] と FLUX.1 [dev] は範囲を超えています。 Midjourney v6.0、DALL・E 3 (HD)、SD3-Ultra などの人気の画像生成モデルを収録。 FLUX.1 [schnell] は、これまでで最も先進的な数ステップ モデルであり、同様の競合他社を上回るだけでなく、Midjourney v6.0 や DALL・E 3 (HD) などをも上回ります。 -蒸留モデル。 モデルは、事前トレーニング段階の完全な出力多様性を維持するために特に微調整されています。 FLUX.1 シリーズ モデルには、現在の最先端テクノロジーと比較して改善の余地がたくさんあります。 FLUX.1 シリーズのすべてのモデルは、0.1 から 2 メガピクセルまでの複数のアスペクト比と解像度をサポートしています。 行動の早い一部のネチズンはすでにそれを最初に経験しているようですが、Black Forest Labsが繰り返し強調してきた「最強」は単なる自己宣伝ではないようです。 単純なプロンプトの言葉がこのような効果を生み出すことができます。アルパカのマットのパターンをよく見ると、歪みや変形はありません。 ️一言: 白いラマの上に乗るエメラルド色のエミュー。
馬が川で 2 頭のワニと遊んでいます。
テキストを含む画像も非常にリアルに処理できます。 レンズの感触。
3 つのモデルのうち、パフォーマンスが若干劣る FLUX.1 [schnell] も、高速かつ強力に使用でき、Mac 上で実行した経験を共有し、ため息をつきました。本当に価値があります。 安定拡散と安定性 AI の作者間の「不満」についてあまり知らないネチズンは、次のように嘆いています。ヴィンセントグラフモデルはどこからともなく現れましたが、それは単に恐ろしいほど強力です。 Stable Diffusion の著者と元会社 Stability AI のストーリーについては、このサイトで以前のレポートを読むことができます:
その価値が 1 億米ドルだったとき、Stable Diffusion の背後にあるチームは、互いに戦う。本当の役人は誰だ? 3 つの最も強力な Vincentian モデルに加えて、Black Forest Labs は「大きな動き」も用意しています。画像生成モデルのこのような強力な機能により、Black Forest Labs はビデオ生成モデルの強固な基盤を築きました。彼らの予告どおり、コンピューター ビジョンのトップ科学者たちは、最先端のビデオ テクノロジをあらゆる人に提供するという目標を目指して前進しています。 。
会社ブログ:https://blackforestlabs.ai/payments/The above is the detailed content of All employees left their old club, and Stable Diffusion led the team to start a business as soon as it was released. It defeated MJ v6 and SD3 immediately, and also opened the source. For more information, please follow other related articles on the PHP Chinese website!
Statement:The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn