ロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る-AI-php.cn

ホームページ

テクノロジー周辺機器

ロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 10:19 AM

画像モデル

はじめに

拡散モデルはもともと物理学の熱力学から派生しましたが、最近では人工知能の分野でも注目を集めています。生成モデル研究の発展を促進できる他の物理理論は何ですか?最近、MIT の 研究者たちは高次元の電磁理論に触発され、ポアソン流 と呼ばれる生成モデルを提案しました。理論的には、このモデルは直感的なイメージと厳密な理論を備えていますが、実験的には、生成品質、生成速度、堅牢性の点で拡散モデルよりも優れていることがよくあります。この論文は NeurIPS 2022 に受理されました。

ロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る

論文アドレス: https://arxiv.org/abs/2209.11178
コードアドレス: https://github.com/Newbeeer/Poisson_flow

研究者らは、静電気力学に触発されて、ポアソン流モデルと呼ばれる新しい生成モデルを提案しました。 (Pオイソン F低 Gジェネレーティブ Mオデル、または PFGM)。この研究では、直感的には、N 次元データ点を N 1 次元空間の新たな次元である z=0 平面上の正電荷の集合とみなすことができ、高次元空間に電場を生成します。 z=0 平面から開始し、生成する電力線に沿って外側に移動することで、研究ではサンプルを半球に到達させることができました (図 1 を参照)。これらの電力線の方向は、高次元空間におけるポアソン方程式の解の勾配に対応します。研究者らは、半球の半径が十分に大きい場合、電力線が z=0 平面上の電荷分布 (つまり、データ分布) を半球上の均一な分布に変換できることを証明しました (図 2)。

PFGM は、電力線の可逆性を利用して、z=0 平面上にデータ分布を生成します。まず、研究者は大きな半球上で均一にサンプルを採取し、次にサンプルをその分布に従わせます。電気力線球から z=0 平面に移動してデータを生成します。電力線に沿った動きは常微分方程式 (ODE) で記述できるため、実際のサンプリングでは、研究者は電力線の方向によって決まる ODE を解くだけで済みます。 PFGM は電場を通じて、球上の単純な分布を複雑なデータ分布に変換します。この観点から、PFGM は連続的な正規化フロー (Normalizing Flow) と考えることができます。

画像生成実験では、PFGM は現在、標準データセット CIFAR-10 上で最もパフォーマンスの高い標準化フローモデルを達成しており、 FID スコア (画質の尺度) は 2.35 を達成しました。研究者らは、画像の尤度を計算し、画像編集を実行し、高解像度の画像データセットにスケールする機能など、PFGM の他の用途も実証しました。さらに、研究者らは、PFGM には、最近人気の拡散モデルに比べて 3 つの利点があることを発見しました。 (1) 同じネットワーク構造上で、次のようなサンプル品質が生成されます。 PFGM の ODE は拡散モデルの ODE よりもはるかに優れています; (2) 拡散モデルによって生成される SDE (確率微分方程式) の品質は同等ですが、PFGM の ODE は 10 倍から 20 倍の加速に達します;

(3) PFGM は、表現力が弱いネットワーク構造に対する拡散モデルよりも堅牢です。

ロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る

図 1: サンプル点は電界線に沿って移動します。上: データ分布はハートの形で、下: データは PFGM の形で分布

ロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る ##図 2: 左: 3 次元のポアソン場の軌跡、右: 画像上で PFGM を使用した順 ODE と逆 ODE

方法の概要

上記のプロセスでは、N 次元データが N 個の 1 次元 (余分な z 次元) 空間に埋め込まれることに注意してください。区別しやすくするために、研究者は x とを使用して N 次元データと N 1 次元を表します。上記の高次元の電力線を得るには、次のポアソン方程式を解く必要があります。 ## は、z=0 が平面上に生成されるデータ分布、

## がポテンシャル関数であり、研究者のソリューションの目標です。電力線の方向のみがわかればよいため、研究者らは電力線の勾配 (ポテンシャル関数の勾配) の解析形式を導き出しました。

電場線の軌跡 (図 2 を参照) は、次の ODE で記述できます。次の定理により、研究者らは上記の ODE 定義を証明しました。これは、高次元半球上の一様分布と z=0 平面上のデータ分布の全単射を表します。この結論は、図 1 および 2 の直観と同じです。つまり、データ分布は電力線を通じて復元できるということです。

PFGM のトレーニング

与えられたデータ分布サンプリングされたデータセット

が得られました。研究者らは、データセットに対応する電力線の勾配を使用して、データ分布に対応する電力線の勾配を近似しました:

電気力線の傾きが学習対象となります。この研究では、perturb 関数を使用して空間内の点を選択し、二乗損失関数を使用してニューラルネットワーク
# が正規化された電界線勾配
を学習できるようにします。、具体的なアルゴリズムは次のとおりです。

PFGM ## のサンプリング#正規化を学習して空間内の正規化された電界線勾配を学習した後、次の ODE を通じてデータ分布をサンプリングできます:

この ODE は、z を小さくすることによって、サンプルを電力線に沿って大きな球から z=0 平面まで徐々に移動させます。さらに、この研究では、ODE シミュレーションを容易にし、変数置換を通じてサンプリングをさらに加速するために、大きな球上の均一分布を特定の Z 平面に投影することを提案しています。具体的な手順については、この記事のセクション 3.3 を参照してください。

実験結果

表 1 では、この研究では標準データセット CIFAR-10 を使用してさまざまなモデルを評価しています。このデータセットでは、PFGM が最もパフォーマンスの高い可逆正規化フローモデル であり、FID スコア 2.35 を達成しています。 PFGM は、同じネットワーク構造 (DDPM /DDPM ディープ) を使用する拡散モデルよりも優れたパフォーマンスを発揮します。研究者らはまた、拡散モデルの SDE (確率微分方程式) 生成品質は同等であったが、PFGM は 10 倍から 20 倍の加速を達成し、生成品質と速度のバランスがより優れていることも観察しました。さらに、研究者らは、PFGM が表現力の低いネットワーク構造上の拡散モデルよりも堅牢であり、高次元データセット上の同じ条件下での拡散モデルよりも優れていることを発見しました。詳細については、記事の実験セクションを参照してください。図 3 は、PFGM が画像を生成するプロセスを視覚化した研究です。

表 1: CIFAR-10 データのサンプル品質 (FID、インセプション) とサンプリングステップ数 (NFE) ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃形3: CIFAR-10、CelebA 64x64、LSUN ベッドルーム 256x256 での PFGM のサンプリングプロセス

結論

この研究は、ポアソンベースの生成モデル PFGM を提案しました。式のこのモデルは、N 1 次元の拡張空間における正規化された電力線の勾配を予測し、電力線の対応する ODE によってサンプリングされます。実験では、本研究で検討したモデルが現時点で最も標準化された流れモデルであり、同じネットワーク構造上で拡散モデルよりも優れた発電効果と高速なサンプリング速度を達成した。 PFGM のサンプリングプロセスはノイズに対してより堅牢であり、より高次元のデータセットにも拡張できます。研究者らは、PFGM が分子生成や 3D データ生成などの他の応用分野でも優れたパフォーマンスを発揮すると期待しています。

以上がロール！ MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。