ホームページ > 記事 > テクノロジー周辺機器 > ロール! MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回る
拡散モデルはもともと物理学の熱力学から派生しましたが、最近では人工知能の分野でも注目を集めています。生成モデル研究の発展を促進できる他の物理理論は何ですか?最近、MIT の 研究者たちは高次元の電磁理論に触発され、ポアソン流 と呼ばれる生成モデルを提案しました。理論的には、このモデルは直感的なイメージと厳密な理論を備えていますが、実験的には、生成品質、生成速度、堅牢性の点で拡散モデルよりも優れていることがよくあります。この論文は NeurIPS 2022 に受理されました。
研究者らは、静電気力学に触発されて、ポアソン流モデルと呼ばれる新しい生成モデルを提案しました。 (Pオイソン F低 Gジェネレーティブ Mオデル、または PFGM)。この研究では、直感的には、N 次元データ点を N 1 次元空間の新たな次元である z=0 平面上の正電荷の集合とみなすことができ、高次元空間に電場を生成します。 z=0 平面から開始し、生成する電力線に沿って外側に移動することで、研究ではサンプルを半球に到達させることができました (図 1 を参照)。これらの電力線の方向は、高次元空間におけるポアソン方程式の解の勾配に対応します。研究者らは、半球の半径が十分に大きい場合、電力線が z=0 平面上の電荷分布 (つまり、データ分布) を半球上の均一な分布に変換できることを証明しました (図 2)。
PFGM は、電力線の可逆性を利用して、z=0 平面上にデータ分布を生成します。まず、研究者は大きな半球上で均一にサンプルを採取し、次にサンプルをその分布に従わせます。電気力線 球から z=0 平面に移動してデータを生成します。電力線に沿った動きは常微分方程式 (ODE) で記述できるため、実際のサンプリングでは、研究者は電力線の方向によって決まる ODE を解くだけで済みます。 PFGM は電場を通じて、球上の単純な分布を複雑なデータ分布に変換します。この観点から、PFGM は連続的な正規化フロー (Normalizing Flow) と考えることができます。
画像生成実験では、PFGM は現在、標準データセット CIFAR-10 上で最もパフォーマンスの高い標準化フロー モデル を達成しており、 FID スコア (画質の尺度) は 2.35 を達成しました。研究者らは、画像の尤度を計算し、画像編集を実行し、高解像度の画像データセットにスケールする機能など、PFGM の他の用途も実証しました。さらに、研究者らは、PFGM には、最近人気の拡散モデルに比べて 3 つの利点があることを発見しました。 (1) 同じネットワーク構造上で、次のようなサンプル品質が生成されます。 PFGM の ODE は拡散モデルの ODE よりもはるかに優れています; (2) 拡散モデルによって生成される SDE (確率微分方程式) の品質は同等ですが、PFGM の ODE は 10 倍から 20 倍の加速に達します;
(3) PFGM は、表現力が弱いネットワーク構造に対する拡散モデルよりも堅牢です。
図 1: サンプル点は電界線に沿って移動します。上: データ分布はハートの形で、下: データは PFGM の形で分布
##図 2: 左: 3 次元のポアソン場の軌跡、右: 画像上で PFGM を使用した順 ODE と逆 ODE
上記のプロセスでは、N 次元データが N 個の 1 次元 (余分な z 次元) 空間に埋め込まれることに注意してください。区別しやすくするために、研究者は x と を使用して N 次元データと N 1 次元を表します。上記の高次元の電力線を得るには、次のポアソン方程式を解く必要があります。 ## は、z=0 が平面上に生成されるデータ分布、 ## がポテンシャル関数であり、研究者のソリューションの目標です。電力線の方向のみがわかればよいため、研究者らは電力線の勾配 (ポテンシャル関数の勾配) の解析形式を導き出しました。 電場 線の軌跡 (図 2 を参照) は、次の ODE で記述できます。次の定理により、研究者らは上記の ODE 定義を証明しました。これは、高次元半球上の一様分布と z=0 平面上のデータ分布の全単射を表します。この結論は、図 1 および 2 の直観と同じです。つまり、データ分布は電力線を通じて復元できるということです。 与えられたデータ分布 サンプリングされたデータセット が得られました。研究者らは、データ セットに対応する電力線の勾配を使用して、データ分布に対応する電力線の勾配を近似しました: 電気力線の傾きが学習対象となります。この研究では、perturb 関数を使用して空間内の点を選択し、二乗損失関数を使用してニューラル ネットワーク を学習できるようにします。 、具体的なアルゴリズムは次のとおりです。 PFGM ## のサンプリング#正規化を学習して空間内の正規化された電界線勾配を学習した後、 次の ODE を通じてデータ分布をサンプリングできます: この ODE は、z を小さくすることによって、サンプルを電力線に沿って大きな球から z=0 平面まで徐々に移動させます。さらに、この研究では、ODE シミュレーションを容易にし、変数置換を通じてサンプリングをさらに加速するために、大きな球上の均一分布を特定の Z 平面に投影することを提案しています。具体的な手順については、この記事のセクション 3.3 を参照してください。 表 1 では、この研究では標準データセット CIFAR-10 を使用してさまざまなモデルを評価しています。このデータセットでは、PFGM が最もパフォーマンスの高い可逆正規化フロー モデル であり、FID スコア 2.35 を達成しています。 PFGM は、同じネットワーク構造 (DDPM /DDPM ディープ) を使用する拡散モデルよりも優れたパフォーマンスを発揮します。研究者らはまた、拡散モデルの SDE (確率微分方程式) 生成品質は同等であったが、PFGM は 10 倍から 20 倍の加速を達成し、生成品質と速度のバランスがより優れていることも観察しました。さらに、研究者らは、PFGM が表現力の低いネットワーク構造上の拡散モデルよりも堅牢であり、高次元データセット上の同じ条件下での拡散モデルよりも優れていることを発見しました。詳細については、記事の実験セクションを参照してください。図 3 は、PFGM が画像を生成するプロセスを視覚化した研究です。 表 1: CIFAR-10 データのサンプル品質 (FID、インセプション) とサンプリング ステップ数 (NFE) ################################################ #形3: CIFAR-10、CelebA 64x64、LSUN ベッドルーム 256x256 での PFGM のサンプリング プロセス 結論方法の概要
実験結果
この研究は、ポアソンベースの生成モデル PFGM を提案しました。式のこのモデルは、N 1 次元の拡張空間における正規化された電力線の勾配を予測し、電力線の対応する ODE によってサンプリングされます。実験では、本研究で検討したモデルが現時点で最も標準化された流れモデルであり、同じネットワーク構造上で拡散モデルよりも優れた発電効果と高速なサンプリング速度を達成した。 PFGM のサンプリング プロセスはノイズに対してより堅牢であり、より高次元のデータ セットにも拡張できます。研究者らは、PFGM が分子生成や 3D データ生成などの他の応用分野でも優れたパフォーマンスを発揮すると期待しています。
以上がロール! MIT ポアソン流生成モデルは、品質と速度の両方を考慮して拡散モデルを上回るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。