検索
ホームページテクノロジー周辺機器AI解像度1024の最速モデル、ByteDance Vincent グラフオープンモデル SDXL-Lightning リリース

モデル | https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

紙 | https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


#1. ライトニング イメージの生成

ジェネレーティブ AI は、テキスト プロンプトに基づいて見事な画像やビデオを作成できる機能で世界的な注目を集めています。現在の最先端の生成モデルは、ノイズを徐々に画像サンプルに変換する反復プロセスである拡散に依存しています。このプロセスには膨大なコンピューティング リソースが必要であり、時間がかかります。 高品質の画像サンプルを生成するプロセスでは、1 つの画像の処理時間は約 5 秒で、通常、巨大な Neural への複数回 (20 ~ 40 回) の呼び出しが必要になります。通信網###。この速度は、高速なリアルタイム生成を必要とするアプリケーション シナリオを制限します。 高速化しながら生成品質を向上させる方法は、現在の研究の注目分野であり、私たちの仕事の中核目標です。

SDXL-Lightning は、革新的なテクノロジー -

Progressive Adversarial Distillation - によってこの障壁を突破し、前例のない生成速度を実現します。このモデルは、わずか 2 または 4 ステップで非常に高品質で解像度の画像を生成でき、計算コストと時間を 10 分の 1 に削減します。私たちの方法では、品質が若干犠牲になりますが、タイムアウトに敏感なアプリケーション向けに 1 ステップで画像を生成することもできます。

SDXL-Lightning は速度の面で優れているだけでなく、画質にも優れており、評価においては以前の高速化技術を上回っています。これにより、良好な多様性と画像とテキストの一致を維持しながら、より高い解像度とより豊かな詳細が可能になります。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

速度比較図

オリジナルモデル(20段)、SDXL-Lightningモデル(2段)


2. モデル効果

SDXL-Lightning モデルは 1 ステップ、2 ステップ、4 ステップを通じて達成できます。ステップと 8 ステップ 画像を生成します。推論ステップが多いほど、画質は向上します。

以下は 4 つのステップで生成された結果です——


1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

微笑む女の子

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布##山のスイッチバックを登るピックアップ トラック

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布魚自転車に乗って、カラフルなアート

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布#サングラスをかけたアジア人女性のクローズアップ

# #美しいカップ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##モナリザ、スケッチ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##泳ぐパンダ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

##山のスイッチバックを登るピックアップ トラック

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

砂漠の中の家、超現実的な風景

以下は 2 つのステップの結果です——

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

リビング ルームの家具デザイン

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

イタリア製の複雑な司祭のローブを着た赤ちゃんアライグマの映画のようなショット

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

居心地の良いリビングルームで、柔らかい毛皮と明るい目をした犬がおもちゃを追って飛び跳ねています

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

雲が入ったティーカップ

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

#家族、中くらいのショット

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布##雪の中でおもちゃで遊ぶ赤ちゃん

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布老人と犬が公園を歩いています

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布車を運転するドラゴン

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布ラテアートを作る猿

## 以前の方法 (Turbo および LCM) と比較して、私たちの方法は詳細が大幅に改善され、元の生成モデルにより忠実な画像を生成します。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

3. コミュニティに還元し、モデルをオープンにする

オープンソースの波が鍵となる人工知能の急速な発展を促進することを強みとして、ByteDance もこの波の一部であることを誇りに思っています。私たちのモデルは SDXL に基づいています。SDXL は現在、テキスト生成画像の最も人気のあるオープン モデルであり、すでに盛んなエコシステムを持っています。今回、私たちは SDXL-Lightning を世界中の開発者、研究者、クリエイティブな実践者に公開し、彼らがこのモデルにアクセスして適用し、業界全体のイノベーションとコラボレーションをさらに推進できるようにすることにしました。

SDXL-Lightning を設計する際、

オープン モデル コミュニティとの互換性を考慮しました

。コミュニティの多くのアーティストや開発者が、漫画やアニメのスタイルなど、さまざまな様式化された画像生成モデルを作成しています。これらのモデルをサポートするために、SDXL-Lightning を高速化プラグインとして提供します。これは、これらのさまざまなスタイルの SDXL モデルにシームレスに統合して、さまざまなモデルの画像生成を高速化できます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布SDXL-Lightning

このモデルは、現在非常に人気のある制御プラグイン ControlNet と組み合わせて、非常に高速で制御可能な画像生成を実現することもできます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布SDXL-Lightning

このモデルは、オープン ソース コミュニティで最も人気のある生成ソフトウェアである ComfyUI もサポートしています。モデルは、直接ロードして使用できます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


4. 技術的な詳細について

理論的には、画像生成はノイズから鮮明な画像への段階的な変換プロセスです。このプロセスでは、ニューラル ネットワークは変換フローのさまざまな位置での勾配を学習します。

画像を生成する具体的な手順は次のとおりです。

まず、ストリームの開始点でノイズ サンプルをランダムにサンプリングし、ニューラル ネットワークを使用して計算します。グラデーション。現在の位置の勾配に基づいてサンプルに微調整を加え、このプロセスを繰り返します。反復するたびに、鮮明な画像が得られるまで、サンプルは最終的な画像分布に近づきます。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 生成フロー プロセス (画像の出典: https://www .php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

生成フローは複雑で非線形であるため、勾配エラーの蓄積を減らすために、生成プロセスは一度に小さなステップだけを実行する必要があります。ニューラル ネットワークの頻繁な計算が必要になるため、計算量が膨大になります。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 曲線プロセス (画像の出典: https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

画像の生成に必要な手順の数を減らすため, 多くの研究が解決策を見つけることに専念してきました。いくつかの研究では、エラーサンプリング方法を減らすことができる方法が提案されていますが、他の研究では生成フローをより線形にしようとしています。これらの方法は進歩していますが、まだ 10 を超える推論ステップが必要です。

#もう 1 つの方法はモデル蒸留です。10 ステップ未満の推論ステップで高品質の画像を生成できます。現在の流れ位置での勾配を計算する代わりに、モデル蒸留によりモデルのターゲットが変更されます。予測を行い、次に遠い流れの位置を直接予測させます。具体的には、教師ネットワークが複数ステップの推論を完了した後、結果を直接予測するように生徒ネットワークを訓練します。このような戦略は、必要な推論ステップの数を大幅に削減できます。繰り返し適用することで、

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

図: 漸進蒸留、学生ネットワーク複数のステップを経た後の教師ネットワークの結果を予測


実際の運用では、生徒ネットワークが将来のフロー位置を正確に予測することが難しいことがよくあります。

この問題を解決するために、私たちの戦略は、学生ネットワークに、モデルの予測と正確に一致させることを強制することではありません。教師のネットワークは一致しますが、確率分布の一貫性において生徒のネットワークが教師のネットワークと一致するようにするためです。言い換えれば、生徒のネットワークは確率的に可能な位置を予測するように訓練されており、たとえこの位置が完全に正確ではない場合でも、生徒のネットワークは予測します。この目標は、生徒ネットワークと教師ネットワークの出力の分布一致を達成するのに役立つ追加の判別ネットワークを導入する敵対的トレーニングを通じて達成されます。

これは、私たちの研究方法の概要です。論文 (

https://www.php.cn/link /ca0525bfe5cab4c577d169d3343a5452) では、より詳細な理論分析、トレーニング戦略、モデルの具体的な定式化の詳細を提供します。

5. SDXL-Lightning を超えて

この研究では主に画像生成に SDXL-Lightning テクノロジーを使用する方法を検討していますが、私たちが提案する漸進的敵対的蒸留法の応用可能性は限定されません。静止画のカテゴリ。この革新的なテクノロジーは、ビデオ、オーディオ、その他のマルチモーダル コンテンツを迅速かつ高品質で生成するために使用することもできます。ぜひ、HuggingFace プラットフォームで SDXL-Lightning を体験していただき、貴重なご意見やフィードバックをお待ちしております。

モデル:

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

論文:https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

以上が解像度1024の最速モデル、ByteDance Vincent グラフオープンモデル SDXL-Lightning リリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。