首页 >科技周边 >人工智能 >全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

PHPz原创: 2024-08-05 16:06:521087浏览

AI 图像和视频生成领域又加入了一个颇有实力的玩家。

还记得今年 3 月底，从 AI 初创公司 Stability AI 离职的研究科学家 Robin Rombach 吗？作为开发出文生图模型 Stable Diffusion 的两位主要作者之一，他于 2022 年加入 Stability AI。

如今，在从 Stability AI 离职近五个月后，Robin Rombach 发推宣布了自己创业的好消息！

他成立了「Black Forest Labs」，旨在推进用于图像和视频的 SOTA 高质量生成式深度学习模型，并开放给尽可能多的人使用。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

团队成员由杰出的 AI 研究者和工程师组成，他们之前的代表性工作包括 VQGAN 和 Latent Diffusion、图像和视频生成领域的 Stable Diffusion 模型（包括 Stable Diffusion XL、Stable Video Diffusion 和 Rectified Flow Transformers）以及用于超快实时图像合成的 Adversarial Diffusion Distillation。

值得注意的是，除了 Robin Rombach 之外，Stable Diffusion 还有三位作者成为了创始团队成员，包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他们都在今年早些时候离开了 Stability AI，有人猜测他们当初离开就是为了自己创业。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

目前，该 Labs 已经完成 3100 万美元的种子轮融资，由 Andreessen Horowitz 领投。其他投资者包括了天使投资人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和创业专家。此外还获得了来自 General Catalyst 和 MätchVC 的后续投资。

该 Labs 还成立了顾问委员会，成员包括在内容创作行业具有广泛经验的科技大佬 Michael Ovitz 和神经风格迁移先驱、欧洲开放 AI 研究的顶级专家 Matthias Bethge 教授。

当然，Black Forest Labs 推出了首个模型系列「FLUX.1」，包含了以下三个变体模型。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

第一个变体是 FLUX.1 [pro]，它是全新的 SOTA 文生图模型，具有极其丰富的图像细节、极强的 prompt 遵循能力和多样化风格。目前可以通过 API 使用。

API 地址：https://docs.bfl.ml/

第二个是 FLUX.1 [dev]，它是 FLUX.1 [pro] 的开放权重、非商用变体，并直接基于后者蒸馏而成。该模型的表现优于 Midjourney 和 Stable Diffusion 3 等其他图像模型。推理代码和权重已经放在了 GitHub 上。下图是与竞品图像模型的比较。

GitHub 地址：https://github.com/black-forest-labs/flux

第三个是开源的 FLUX.1 [schnell]，它是超高效的 4-step 模型，遵循了 Apache 2.0 协议。该模型在性能上与 [dev]、[pro] 非常接近，可以在 Hugging Face 上使用。

Hugging Face 地址：https://huggingface.co/black-forest-labs/FLUX.1-schnell

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

与此同时，Black Forest Labs 也开始宣传自己了。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

下一步的目标是推出所有人可用的 SOTA 文生视频模型，大家可以期待一波了！

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

一出手即王炸：文生图模型系列「FLUX.1」来袭

这次 Black Forest Labs 推出的三款模型，均采用了多模态和并行扩散 Transformer 的混合架构。不同于其他家将一系列模型按参数量分为「中杯」、「大杯」、「超大杯」，FLUX.1 家族的成员统一扩展为 120 亿参数的庞大规模。

研究团队采用了流匹配（Flow Matching）框架对之前 SOTA 扩散模型进行了升级。从官方博客的注释中可以推测，研究团队沿用了还在 Stability AI 任职时（今年 3 月）提出的 Rectified flow+Transformer 方法。

论文链接：https://arxiv.org/pdf/2403.03206.pdf

他们还引入了旋转位置嵌入和并行注意力层。这些方法有效提高了模型生成图片的性能，在硬件设备上生成图片的速度也变得更快了。

这次 Black Forest Labs 并未公开模型的详细技术，不过更详细的技术报告将很快公布。

这三款模型在各自的领域都确立了新标准。无论是生成图像的美观度、图像与文本提示词的附和度、尺寸 / 宽高比可变性、还是输出格式的多样性， FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列当红图片生成模型，如 Midjourney v6.0、DALL・E 3 (HD) 以及老东家 SD3-Ultra。

FLUX.1 [schnell] 是迄今为止最先进的少步骤模型（few-step model），不仅超越了同类竞争对手，还超越了像 Midjourney v6.0 和 DALL・E 3 (HD) 这样的强大非蒸馏模型。

模型经过专门微调，以保留预训练阶段的全部输出多样性。与当前最先进的技术相比，FLUX.1 系列模型还保留了充分的进步空间。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源