Apple による最新の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しました。
この方法を使用すると、同じ解像度の画像のトレーニング ステップの数が 70% 以上削減されます。
1024×1024の解像度では、画質がそのままフルに表現され、細部まではっきりと見えます。
Apple はこの成果を MDM と名付けました。DM は Diffusion Model の略で、最初の M は Matryoshka の略です。
本物のマトリョーシカ人形と同じように、MDM は高解像度プロセス内に低解像度プロセスをネストし、複数のレイヤーにネストします。
高解像度と低解像度の拡散プロセスが同時に実行されるため、高解像度プロセスにおける従来の拡散モデルのリソース消費が大幅に削減されます。
解像度 256×256 の画像の場合、バッチ サイズ 1024 の環境では、従来の拡散モデルは 150 万ステップでトレーニングする必要がありますが、MDM は 150 万ステップでトレーニングする必要があります。必要となるのは 390,000 で、70% 以上減少します。
さらに、MDM はエンドツーエンドのトレーニングを採用しており、特定のデータセットや事前トレーニングされたモデルに依存せず、生成品質を確保しながら速度を向上させ、柔軟に使用できます。
高解像度の画像を描画できるだけでなく、16×256 平方のビデオを合成することもできます。
#一部のネチズンは、Apple がついにテキストと画像を結びつけたとコメントしました。
それでは、MDM の「マトリョーシカ」テクノロジーは正確にどのように機能するのでしょうか?
全体とプログレッシブの組み合わせ
トレーニングを開始する前に、データを前処理する必要があります。高解像度の画像は、特定のアルゴリズムを使用してリサンプリングされます。解像度のバージョン。
次に、これらの異なる解像度のデータを統合 UNet モデリングに使用します。小さな UNet は低解像度を処理し、高解像度を処理する大きな UNet にネストされます。
クロス解像度接続を通じて、異なるサイズの UNet 間で機能とパラメータを共有できます。
#MDM トレーニングは段階的なプロセスです。
共同でモデリングを行っていますが、最初から高解像度でトレーニングを行うのではなく、低解像度から徐々に拡張していきます。
これにより、膨大な量の計算が回避され、低解像度 UNet の事前トレーニングによって高解像度トレーニング プロセスが高速化されることも可能になります。
トレーニング プロセス中に、より高解像度のトレーニング データがプロセス全体に徐々に追加され、モデルが徐々に増加する解像度に適応し、最終的な高解像度プロセスにスムーズに移行できるようになります。
ただし、全体として、高解像度プロセスが徐々に追加された後でも、MDM トレーニングは依然としてエンドツーエンドの共同プロセスです。
異なる解像度での共同トレーニングでは、複数の解像度の損失関数が一緒にパラメーターの更新に参加し、多段階トレーニングによって引き起こされるエラーの蓄積を回避します。
各解像度には、対応するデータ項目の再構成損失があります。異なる解像度の損失は重み付けされて結合されます。生成品質を確保するために、低解像度の損失の重みが大きくなります。
推論フェーズでは、MDM は並列性と進行性を組み合わせた戦略も採用します。
さらに、MDM は、事前トレーニングされた画像分類モデル (CFG) を使用して、生成されたサンプルがより合理的な方向に最適化されるように導き、低解像度のサンプルにノイズを追加して高解像度のサンプルに近づけます。 -解像度サンプル: サンプルの分布。
それでは、MDM の効果は何でしょうか?
SOTA に匹敵するパラメータが少ない
画像に関して言えば、ImageNet および CC12M データ セットでは、MDM の FID (値が低いほど効果が高くなります) と CLIP パフォーマンスは、SOTA よりも大幅に優れています。通常のディフュージョンモデル。
FID は画像自体の品質を評価するために使用され、CLIP は画像とテキスト命令の一致度を示します。
DALL E や IMGEN などの SOTA モデルと比較すると、MDM のパフォーマンスも非常に近いですが、MDM のトレーニング パラメーターはこれらのモデルよりもはるかに小さいです。
MDM は通常の拡散モデルより優れているだけでなく、他のカスケード拡散モデルよりも優れています。
アブレーション実験の結果は、低解像度トレーニングのステップが増えるほど、MDM 効果の強化がより明らかになる一方、ネスト レベルが増えると同じ結果が得られることを示しています。 CLIP スコアに必要なトレーニング ステップは少なくなります。
CFG パラメーターの選択は、複数のテスト後の FID と CLIP の間のトレードオフの結果です (高い CLIP スコアは CFG 強度の増加に対応します)。
以上がApple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール
