ホームページ >テクノロジー周辺機器 >AI >解像度1024の最速モデル、ByteDance Vincent グラフオープンモデル SDXL-Lightning リリース

解像度1024の最速モデル、ByteDance Vincent グラフオープンモデル SDXL-Lightning リリース

PHPz
PHPz転載
2024-02-24 12:37:261530ブラウズ

モデル | https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

紙 | https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


#1. ライトニング イメージの生成

ジェネレーティブ AI は、テキスト プロンプトに基づいて見事な画像やビデオを作成できる機能で世界的な注目を集めています。現在の最先端の生成モデルは、ノイズを徐々に画像サンプルに変換する反復プロセスである拡散に依存しています。このプロセスには膨大なコンピューティング リソースが必要であり、時間がかかります。 高品質の画像サンプルを生成するプロセスでは、1 つの画像の処理時間は約 5 秒で、通常、巨大な Neural への複数回 (20 ~ 40 回) の呼び出しが必要になります。通信網###。この速度は、高速なリアルタイム生成を必要とするアプリケーション シナリオを制限します。 高速化しながら生成品質を向上させる方法は、現在の研究の注目分野であり、私たちの仕事の中核目標です。

SDXL-Lightning は、革新的なテクノロジー -

Progressive Adversarial Distillation - によってこの障壁を突破し、前例のない生成速度を実現します。このモデルは、わずか 2 または 4 ステップで非常に高品質で解像度の画像を生成でき、計算コストと時間を 10 分の 1 に削減します。私たちの方法では、品質が若干犠牲になりますが、タイムアウトに敏感なアプリケーション向けに 1 ステップで画像を生成することもできます。

SDXL-Lightning は速度の面で優れているだけでなく、画質にも優れており、評価においては以前の高速化技術を上回っています。これにより、良好な多様性と画像とテキストの一致を維持しながら、より高い解像度とより豊かな詳細が可能になります。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

速度比較図

オリジナルモデル(20段)、SDXL-Lightningモデル(2段)


2. モデル効果

SDXL-Lightning モデルは 1 ステップ、2 ステップ、4 ステップを通じて達成できます。ステップと 8 ステップ 画像を生成します。推論ステップが多いほど、画質は向上します。

以下は 4 つのステップで生成された結果です——


1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

微笑む女の子

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布##山のスイッチバックを登るピックアップ トラック

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布魚自転車に乗って、カラフルなアート

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布#サングラスをかけたアジア人女性のクローズアップ

# #美しいカップ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##モナリザ、スケッチ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##泳ぐパンダ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##山のスイッチバックを登るピックアップ トラック

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

砂漠の中の家、超現実的な風景

以下は 2 つのステップの結果です——

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

リビング ルームの家具デザイン

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

イタリア製の複雑な司祭のローブを着た赤ちゃんアライグマの映画のようなショット

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

居心地の良いリビングルームで、柔らかい毛皮と明るい目をした犬がおもちゃを追って飛び跳ねています

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

雲が入ったティーカップ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

#家族、中くらいのショット

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布##雪の中でおもちゃで遊ぶ赤ちゃん

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布老人と犬が公園を歩いています

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布車を運転するドラゴン

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布ラテアートを作る猿

## 以前の方法 (Turbo および LCM) と比較して、私たちの方法は詳細が大幅に改善され、元の生成モデルにより忠実な画像を生成します。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

3. コミュニティに還元し、モデルをオープンにする

オープンソースの波が鍵となる人工知能の急速な発展を促進することを強みとして、ByteDance もこの波の一部であることを誇りに思っています。私たちのモデルは SDXL に基づいています。SDXL は現在、テキスト生成画像の最も人気のあるオープン モデルであり、すでに盛んなエコシステムを持っています。今回、私たちは SDXL-Lightning を世界中の開発者、研究者、クリエイティブな実践者に公開し、彼らがこのモデルにアクセスして適用し、業界全体のイノベーションとコラボレーションをさらに推進できるようにすることにしました。

SDXL-Lightning を設計する際、

オープン モデル コミュニティとの互換性を考慮しました

。コミュニティの多くのアーティストや開発者が、漫画やアニメのスタイルなど、さまざまな様式化された画像生成モデルを作成しています。これらのモデルをサポートするために、SDXL-Lightning を高速化プラグインとして提供します。これは、これらのさまざまなスタイルの SDXL モデルにシームレスに統合して、さまざまなモデルの画像生成を高速化できます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布SDXL-Lightning

このモデルは、現在非常に人気のある制御プラグイン ControlNet と組み合わせて、非常に高速で制御可能な画像生成を実現することもできます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布SDXL-Lightning

このモデルは、オープン ソース コミュニティで最も人気のある生成ソフトウェアである ComfyUI もサポートしています。モデルは、直接ロードして使用できます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


4. 技術的な詳細について

理論的には、画像生成はノイズから鮮明な画像への段階的な変換プロセスです。このプロセスでは、ニューラル ネットワークは変換フローのさまざまな位置での勾配を学習します。

画像を生成する具体的な手順は次のとおりです。

まず、ストリームの開始点でノイズ サンプルをランダムにサンプリングし、ニューラル ネットワークを使用して計算します。グラデーション。現在の位置の勾配に基づいてサンプルに微調整を加え、このプロセスを繰り返します。反復するたびに、鮮明な画像が得られるまで、サンプルは最終的な画像分布に近づきます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 生成フロー プロセス (画像の出典: https://www .php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

生成フローは複雑で非線形であるため、勾配エラーの蓄積を減らすために、生成プロセスは一度に小さなステップだけを実行する必要があります。ニューラル ネットワークの頻繁な計算が必要になるため、計算量が膨大になります。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 曲線プロセス (画像の出典: https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

画像の生成に必要な手順の数を減らすため, 多くの研究が解決策を見つけることに専念してきました。いくつかの研究では、エラーサンプリング方法を減らすことができる方法が提案されていますが、他の研究では生成フローをより線形にしようとしています。これらの方法は進歩していますが、まだ 10 を超える推論ステップが必要です。

#もう 1 つの方法はモデル蒸留です。10 ステップ未満の推論ステップで高品質の画像を生成できます。現在の流れ位置での勾配を計算する代わりに、モデル蒸留によりモデルのターゲットが変更されます。予測を行い、次に遠い流れの位置を直接予測させます。具体的には、教師ネットワークが複数ステップの推論を完了した後、結果を直接予測するように生徒ネットワークを訓練します。このような戦略は、必要な推論ステップの数を大幅に削減できます。繰り返し適用することで、

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 漸進蒸留、学生ネットワーク複数のステップを経た後の教師ネットワークの結果を予測


実際の運用では、生徒ネットワークが将来のフロー位置を正確に予測することが難しいことがよくあります。

この問題を解決するために、私たちの戦略は、学生ネットワークに、モデルの予測と正確に一致させることを強制することではありません。教師のネットワークは一致しますが、確率分布の一貫性において生徒のネットワークが教師のネットワークと一致するようにするためです。言い換えれば、生徒のネットワークは確率的に可能な位置を予測するように訓練されており、たとえこの位置が完全に正確ではない場合でも、生徒のネットワークは予測します。この目標は、生徒ネットワークと教師ネットワークの出力の分布一致を達成するのに役立つ追加の判別ネットワークを導入する敵対的トレーニングを通じて達成されます。

これは、私たちの研究方法の概要です。論文 (

https://www.php.cn/link /ca0525bfe5cab4c577d169d3343a5452) では、より詳細な理論分析、トレーニング戦略、モデルの具体的な定式化の詳細を提供します。

5. SDXL-Lightning を超えて

この研究では主に画像生成に SDXL-Lightning テクノロジーを使用する方法を検討していますが、私たちが提案する漸進的敵対的蒸留法の応用可能性は限定されません。静止画のカテゴリ。この革新的なテクノロジーは、ビデオ、オーディオ、その他のマルチモーダル コンテンツを迅速かつ高品質で生成するために使用することもできます。ぜひ、HuggingFace プラットフォームで SDXL-Lightning を体験していただき、貴重なご意見やフィードバックをお待ちしております。

モデル:

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

論文:https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

以上が解像度1024の最速モデル、ByteDance Vincent グラフオープンモデル SDXL-Lightning リリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。