Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!-AI-php.cn

ホームページ

テクノロジー周辺機器

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 06:51 PM

グーグルモデル

最近、分類器を使用しない誘導拡散モデルは高解像度画像生成に非常に効果的であり、DALL-E 2、GLIDE、Imagen などの大規模拡散フレームワークで広く使用されています。

ただし、分類子を使用しない誘導拡散モデルの欠点は、推論時の計算コストが高いことです。なぜなら、クラス条件付きモデルと無条件モデルという 2 つの拡散モデルを何百回も評価する必要があるからです。

この問題を解決するために、スタンフォード大学と Google Brain の学者は、2 段階の蒸留法を使用して分類器を使用しない誘導拡散モデルのサンプリング効率を向上させることを提案しました。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

文書アドレス: https://arxiv.org/abs/2210.03142

分類器を使用しない誘導拡散モデルを高速サンプリングモデルに改良するにはどうすればよいですか?

まず、事前トレーニングされた分類子を使用しないガイダンスモデルについて、研究者はまず、条件付きモデルと無条件モデルの結合出力と一致する単一のモデルを学習しました。

研究者らは、このモデルを段階的に抽出して、より少ないサンプリング手順で拡散モデルを作成しました。

ImageNet 64x64 および CIFAR-10 では、この方法で元のモデルと視覚的に同等の画像を生成できることがわかります。

わずか 4 つのサンプリングステップで、オリジナルモデルと同等の FID/IS スコアを取得でき、サンプリング速度も 256 倍と高速です。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

ガイダンスの重み w を変更することで、研究者が抽出したモデルはサンプルの多様性と品質の間でトレードオフを行うことができることがわかります。。たった 1 回のサンプリングステップで、視覚的に満足のいく結果が得られます。

拡散モデルの背景

データ分布からのサンプル x

、ノイズスケジューリング関数 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! 研究者らは、重み付けされた値を最小化することでパラメータ θ を使用してモデルをトレーニングしました。平均二乗誤差拡散モデル。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

ここで、 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! は信号対雑音比、およびです。は、事前に指定された重み付け関数です。

拡散モデルをトレーニングしたら、離散時間 DDIM サンプラーを使用してモデルからサンプリングできます。 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! 具体的には、DDIM サンプラーは z1 〜 N (0,I) から始まり、次のように更新されます。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

ここで、N はサンプリングステップの総数です。 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! を使用して、最終サンプルが生成されます。

分類子を使用しないガイダンスは、条件付き拡散モデルのサンプル品質を大幅に向上させる効果的な方法であり、GLIDE、DALL・E 2、Imagen などで広く使用されています。

サンプルの品質と多様性を測定するためのガイダンス重みパラメーター Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! が導入されています。サンプルを生成するために、分類子なしのガイダンスでは、各更新ステップでを予測モデルとして使用し、条件付き拡散モデル Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! と共同トレーニングされた。

分類器を使用しないガイダンスを使用したサンプリングは、サンプリング更新ごとに 2 つの拡散モデルを評価する必要があるため、一般にコストがかかります。

この問題を解決するために、研究者らは漸進蒸留を使用しました。これは、蒸留を繰り返すことで拡散モデルのサンプリング速度を高める方法です。

以前は、このメソッドをモデルの蒸留のガイドに直接使用することはできず、決定論的 DDIM サンプラー以外のサンプラーでも使用できませんでした。この論文では、研究者らはこれらの問題を解決しました。

分類器を使用しない誘導拡散モデルの抽出

彼らのアプローチは、分類器を使用せずに誘導拡散モデルを抽出することです。

トレーニングされた教師主導モデル Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! の場合、彼らは 2 つのステップを踏みました。

最初のステップで、研究者は、一致する学習可能なパラメータη1を持つ連続時間学生モデル Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! を導入しました。任意のタイムステップ t ∈ [0, 1] における教師モデルの出力。関心のある指導強度の範囲を指定した後、次の目標を使用して生徒モデルを最適化しました。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃で＃＃＃＃＃＃＃＃＃。 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! 指導の重み w を組み合わせるために、研究者は w 条件付きモデルを導入しました。ここで、w は学生モデルの入力として機能します。特徴をよりよく捉えるために、彼らはフーリエ埋め込み w を適用し、Kingma らが使用したタイムステッピング法を使用してそれを拡散モデルのバックボーンに組み込みました。

初期化はパフォーマンスにおいて重要な役割を果たすため、研究者が生徒モデルを初期化するとき、教師条件モデルと同じパラメーターを使用しました (w コンディショニングに関連する新たに導入されたパラメーターを除く)。

2 番目のステップ、研究者は離散時間ステップのシナリオを想像し、最初のステップ Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! から学習モデルを徐々に変更しました。は、学習可能なパラメータ η2 とより少ないステップを持つスチューデントモデルに抽出されます。

このうち、N はサンプリングステップ数を表します。 Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! とについて、研究者は、生徒モデル、教師モデルの 2 ステップ DDIM サンプリングの出力を 1 ステップで一致させます (例: t/N から t - 0.5/N、t - 0.5/N から t - 1/N)。

教師モデルの 2N ステップを生徒モデルの N ステップに抽出した後、新しい N ステップの生徒モデルを新しい教師モデルとして使用し、同じことを繰り返すことができます。教師モデルを N/2 ステップの学生モデルに蒸留するプロセス。各ステップで、研究者は教師モデルのパラメーターを使用して化学モデルを初期化します。

#N ステップの決定論的およびランダムサンプリング

モデルが完成したら Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! のトレーニングを受けた研究者は、DDIM 更新ルールを通じてサンプリングを実行できます。研究者は、蒸留モデル # の場合、初期化 # を考慮すると、このサンプリングプロセスが決定的であることに気付きました。

さらに、研究者は N ステップのランダムサンプリングを実行することもできます。元のステップサイズの 2 倍の確定的サンプリングステップ (つまり、N/2 ステップの確定的サンプラーと同じ) を使用し、その後、元のステップサイズを使用してランダムなステップを戻します (つまり、ノイズで摂動します)。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! 、t > 1/N の場合、次の更新ルールを使用できます——

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

＃＃＃で、＃＃＃＃＃＃＃＃＃。

t=1/N の場合、研究者は決定論的更新公式を使用して Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上! からを導き出します。

ランダムサンプリングを実行するには、決定論的サンプラーと比較してわずかに異なるタイムステップでモデルを評価する必要があり、トレーニングアルゴリズムに対するエッジケースの小さな変更が必要であることに注意してください。

その他の蒸留方法

ブートストラップモデルに直接順蒸留を適用する方法もあります。、教師モデルの構造に従って、学生モデルは、共同トレーニングされた条件付きモデルと無条件モデルに直接抽出されます。研究者らが試したところ、この方法は効果がないことがわかりました。

実験と結論

モデル実験は、ImageNet (64*64) と CIFAR 10 の 2 つの標準データセットで実施されました。

実験では、ガイダンス重み w のさまざまな範囲が調査され、すべての範囲が同等であることが観察されたため、[wmin, wmax] = [0, 4] が使用されました。実験。第 1 ステップと第 2 ステップのモデルは、信号対雑音損失を使用してトレーニングされます。

ベースライン標準には、DDPM 祖先サンプリングと DDIM サンプリングが含まれます。

ガイダンス重み w を組み込む方法をよりよく理解するために、固定 w 値でトレーニングされたモデルが参照として使用されます。

公平な比較を行うために、実験ではすべての方法で同じ事前トレーニング済み教師モデルを使用します。 U-Net (Ronneberger et al., 2015) アーキテクチャをベースラインとして使用し、同じ U-Net バックボーンを使用して、w が埋め込まれた構造が 2 ステップのスチューデントモデルとして導入されます。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

#上の図は、ImageNet 64x64 でのすべてのメソッドのパフォーマンスを示しています。ここで、D と S はそれぞれ決定的サンプラーと確率的サンプラーを表します。

実験では、誘導間隔 w∈[0, 4] を条件としたモデルのトレーニングは、w を固定値としてモデルをトレーニングした場合と同等でした。ステップ数が少ない場合、私たちの方法は DDIM ベースラインパフォーマンスを大幅に上回り、基本的に 8 ～ 16 ステップで教師モデルのパフォーマンスレベルに達します。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

#FID および IS スコアによって評価される ImageNet 64x64 のサンプリング品質

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

#CIFAR-10 のサンプリング品質を FID および IS スコアで評価

##また、教師モデルのエンコードプロセスを抽出して、スタイル転送の実験。具体的には、2 つのドメイン A と B の間でスタイル転送を実行するには、ドメイン A からの画像をドメイン A でトレーニングされた拡散モデルを使用してエンコードし、次にドメイン B でトレーニングされた拡散モデルを使用してデコードします。

Stanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!

エンコードプロセスは DDIM の逆サンプリングプロセスとして理解できるため、分類器なしのガイダンスでエンコーダとデコーダの両方を抽出し、上記のように DDIM エンコーダおよびデコーダと比較しました。図に示すように。また、ブーツ強度の変更によるパフォーマンスへの影響も調査します。

要約すると、誘導拡散モデルの蒸留方法と、蒸留されたモデルからサンプリングするランダムサンプラーを提案します。経験的に、私たちの方法はわずか 1 ステップで視覚的に高度なサンプリングを実現し、わずか 8 ～ 16 ステップで教師と同等の FID/IS スコアを取得します。

以上がStanford/Google Brain: 二重蒸留、誘導拡散モデルのサンプリング速度が 256 倍に向上!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

WebStorm Mac版

便利なJavaScript開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。