Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。-AI-php.cn

ホームページ

テクノロジー周辺機器

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 25, 2023 pm 02:13 PM

モデル電車

Apple による最新の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しました。

この方法を使用すると、同じ解像度の画像のトレーニングステップの数が 70% 以上削減されます。

1024×1024の解像度では、画質がそのままフルに表現され、細部まではっきりと見えます。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

Apple はこの成果を MDM と名付けました。DM は Diffusion Model の略で、最初の M は Matryoshka の略です。

本物のマトリョーシカ人形と同じように、MDM は高解像度プロセス内に低解像度プロセスをネストし、複数のレイヤーにネストします。

高解像度と低解像度の拡散プロセスが同時に実行されるため、高解像度プロセスにおける従来の拡散モデルのリソース消費が大幅に削減されます。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

解像度 256×256 の画像の場合、バッチサイズ 1024 の環境では、従来の拡散モデルは 150 万ステップでトレーニングする必要がありますが、MDM は 150 万ステップでトレーニングする必要があります。必要となるのは 390,000 で、70% 以上減少します。

さらに、MDM はエンドツーエンドのトレーニングを採用しており、特定のデータセットや事前トレーニングされたモデルに依存せず、生成品質を確保しながら速度を向上させ、柔軟に使用できます。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

高解像度の画像を描画できるだけでなく、16×256 平方のビデオを合成することもできます。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

#一部のネチズンは、Apple がついにテキストと画像を結びつけたとコメントしました。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

それでは、MDM の「マトリョーシカ」テクノロジーは正確にどのように機能するのでしょうか?

全体とプログレッシブの組み合わせ

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

トレーニングを開始する前に、データを前処理する必要があります。高解像度の画像は、特定のアルゴリズムを使用してリサンプリングされます。解像度のバージョン。

次に、これらの異なる解像度のデータを統合 UNet モデリングに使用します。小さな UNet は低解像度を処理し、高解像度を処理する大きな UNet にネストされます。

クロス解像度接続を通じて、異なるサイズの UNet 間で機能とパラメータを共有できます。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

#MDM トレーニングは段階的なプロセスです。

共同でモデリングを行っていますが、最初から高解像度でトレーニングを行うのではなく、低解像度から徐々に拡張していきます。

これにより、膨大な量の計算が回避され、低解像度 UNet の事前トレーニングによって高解像度トレーニングプロセスが高速化されることも可能になります。

トレーニングプロセス中に、より高解像度のトレーニングデータがプロセス全体に徐々に追加され、モデルが徐々に増加する解像度に適応し、最終的な高解像度プロセスにスムーズに移行できるようになります。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

ただし、全体として、高解像度プロセスが徐々に追加された後でも、MDM トレーニングは依然としてエンドツーエンドの共同プロセスです。

異なる解像度での共同トレーニングでは、複数の解像度の損失関数が一緒にパラメーターの更新に参加し、多段階トレーニングによって引き起こされるエラーの蓄積を回避します。

各解像度には、対応するデータ項目の再構成損失があります。異なる解像度の損失は重み付けされて結合されます。生成品質を確保するために、低解像度の損失の重みが大きくなります。

推論フェーズでは、MDM は並列性と進行性を組み合わせた戦略も採用します。

さらに、MDM は、事前トレーニングされた画像分類モデル (CFG) を使用して、生成されたサンプルがより合理的な方向に最適化されるように導き、低解像度のサンプルにノイズを追加して高解像度のサンプルに近づけます。 -解像度サンプル: サンプルの分布。

それでは、MDM の効果は何でしょうか?

SOTA に匹敵するパラメータが少ない

画像に関して言えば、ImageNet および CC12M データセットでは、MDM の FID (値が低いほど効果が高くなります) と CLIP パフォーマンスは、SOTA よりも大幅に優れています。通常のディフュージョンモデル。

FID は画像自体の品質を評価するために使用され、CLIP は画像とテキスト命令の一致度を示します。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

DALL E や IMGEN などの SOTA モデルと比較すると、MDM のパフォーマンスも非常に近いですが、MDM のトレーニングパラメーターはこれらのモデルよりもはるかに小さいです。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

MDM は通常の拡散モデルより優れているだけでなく、他のカスケード拡散モデルよりも優れています。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

アブレーション実験の結果は、低解像度トレーニングのステップが増えるほど、MDM 効果の強化がより明らかになる一方、ネストレベルが増えると同じ結果が得られることを示しています。 CLIP スコアに必要なトレーニングステップは少なくなります。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

CFG パラメーターの選択は、複数のテスト後の FID と CLIP の間のトレードオフの結果です (高い CLIP スコアは CFG 強度の増加に対応します)。

Apple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。

以上がApple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング！その日はどのようなコーディング関連のタスクを計画していますか？このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。終わり？ - ＆＃8217を見てみましょう

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。