ホームページ >テクノロジー周辺機器 >AI >最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

PHPz
PHPz転載
2023-04-09 20:31:011499ブラウズ

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

このレビュー (普及モデル: 手法とアプリケーションの包括的な調査) は、カリフォルニア大学の Ming-Hsuan Yang 氏と、北京大学 Cui Bin 研究所の Google Research によるものです。 、CMU、UCLA、モントリオール ミラ研究所およびその他の研究チームは、既存の拡散モデルの包括的な概要と分析を初めて実施し、拡散モデル アルゴリズムからの分類、他の 5 つの主要な生成モデルとの関連性、および拡散モデルのアルゴリズムによる分類を詳細に説明しました。 7 つの主要分野での応用を検討し、応用などを実施し、最終的に普及モデルの現状の限界と今後の発展の方向性を提案します。

記事リンク: https://arxiv.org/abs/2209.00796 拡散モデルの論文分類概要のこのレビュー github リンク: https://github.com/YangLing0818/ Diffusion -Models-Papers-Survey-Taxonomy

1

はじめに

Diffusion モデルは、深い生成モデル SOTA の中で新しいものです。拡散モデルは、画像生成タスクにおいてオリジナルの SOTA: GAN を上回り、コンピュータ ビジョン、NLP、波形信号処理、マルチモーダル モデリング、分子グラフ モデリング、時系列モデリングなどの多くの応用分野で優れたパフォーマンスを発揮します。浄化など。さらに、拡散モデルは、ロバスト学習、表現学習、強化学習などの他の研究分野と密接に関連しています。

ただし、元の拡散モデルにも欠点があります。サンプリング速度が遅く、通常、サンプルを抽出するために数千の評価ステップが必要です。最尤推定は尤度ベースの推定と比較できません。他のモデルと比較すると、さまざまなデータ型に一般化する能力が劣ります。現在、多くの研究が実用化の観点から上記の制限を解決するため、または理論的な観点からモデルの機能を分析するために多くの努力が払われています。

しかし、アルゴリズムからアプリケーションに至る普及モデルの最近の進歩についての体系的なレビューは現在不足しています。この急速に成長する分野の進歩を反映するために、普及モデルの最初の包括的なレビューを紹介します。私たちは、私たちの研究が拡散モデルの設計上の考慮事項と高度な手法に光を当て、さまざまな分野での応用を実証し、将来の研究の方向性を示すことを構想しています。このレビューの概要を以下に示します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

#拡散モデルはさまざまなタスクで優れたパフォーマンスを発揮しますが、依然として独自の欠点があり、多くの点が挙げられます。研究により拡散モデルが改善されました。

拡散モデルの研究の進捗状況を系統的に明らかにするために、元の拡散モデルの 3 つの主な欠点、つまりサンプリング速度の遅さ、最尤差、データの一般化の弱さをまとめました。また、拡散モデルの改善研究を、サンプリング速度の改善、最尤化の強化、およびデータ一般化の強化という 3 つの対応するカテゴリに分類することも提案されています。

最初に改善の動機を説明し、次に手法の特徴に応じて改善の方向ごとに研究を分類し、手法間の関連性と相違点を明確に示します。 。ここでは、例としていくつかの重要なメソッドのみを選択します。図に示すように、各タイプのメソッドは私たちの研究で詳しく紹介されています。 3 種類の拡散モデルを分析し、他の 5 つの生成モデル、GAN、VAE、自己回帰モデル、正規化フロー、エネルギーベース モデルを紹介します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

研究者は、拡散モデルの優れた特性を考慮して、その特性に応じて拡散モデルを他の生成モデルと組み合わせました。拡散モデルの詳細 この記事では、拡散モデルと他の生成モデルを組み合わせる作業を紹介し、元の生成モデルの改良点を説明します。

拡散モデルは多くの分野で優れた性能を発揮しており、拡散モデルは応用分野によって変形が異なることを考慮し、拡散モデルの応用研究を体系的に導入しました。 : コンピューター ビジョン、NLP、波形信号処理、マルチモーダル モデリング、分子グラフ モデリング、時系列モデリング、敵対的浄化。各タスクについて、タスクを定義し、拡散モデルを利用してタスクを処理する作業を紹介します。

この作業の主な貢献を次のように要約します。

  • 新しい分類方法: 拡散モデルとその応用のための新しい体系的な分類方法を提案します。具体的には、モデルをサンプリング速度の強化、最尤推定の強化、データ一般化の強化の 3 つのカテゴリに分類します。さらに、拡散モデルのアプリケーションを、コンピューター ビジョン、NLP、波形信号処理、マルチモーダル モデリング、分子グラフ モデリング、時系列モデリング、および敵対的浄化の 7 つのカテゴリに分類します。
  • 包括的なレビュー: 最新の普及モデルとその応用について、初めて包括的な概要を提供します。各普及モデルの主な改良点を示し、元のモデルと必要な比較を行い、対応する論文を要約します。普及モデルの適用の種類ごとに、普及モデルが対処する主な問題を提示し、それらの問題をどのように解決するかを説明します。
  • 今後の研究の方向性: 私たちは将来の研究に対する未解決の質問を提起し、アルゴリズムとアプリケーションにおける拡散モデルの将来の開発についていくつかの提案を提供します。

2 拡散モデルの基礎

生成モデリングにおける中心的な問題は、モデルの柔軟性と計算能力のトレードオフのバランスです。拡散モデルの基本的な考え方は、順拡散プロセスを通じてデータの分布を体系的に撹乱し、その後、逆拡散プロセスを学習することでデータの分布を復元することで、非常に柔軟で計算が容易なモデルを生成することです。生成モデル。

(1) ノイズ除去拡散確率モデル (DDPM)

DDPM は、2 つのパラメータ化されたマルコフ連鎖構成と変分推論を使用して、有限時間後の元のデータ分布と一致するサンプルを生成します。フォワード チェーンの機能はデータに摂動を与えることであり、データの分布が事前分布、つまり標準ガウス分布になるまで、事前に設計されたノイズ スケジュールに従ってデータにガウス ノイズを徐々に追加します。逆方向チェーンは、指定された事前確率から開始され、パラメーター化されたガウス変換カーネルを使用して、元のデータ分布を徐々に復元することを学習します。が元のデータとその分布を表す場合、前方チェーンの分布は次の式で表すことができます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

これは、前方チェーンがはマルコフプロセスとは、t段階のノイズを加えた後のサンプルであり、あらかじめ与えられたノイズの進み具合を制御するパラメータです。が 1 に近づくと、ほぼ標準ガウス分布に従うと考えられます。それが非常に小さい場合、逆プロセスの転送カーネルは近似的にガウスであると考えることができます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

変分の下限は次のように学習できます。損失関数:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

## (2) スコアベースの生成モデル (SGM)

上記の DDPM は、SGM の離散形式とみなすことができます。 SGM は、確率微分方程式(SDE)を構築してデータ分布を滑らかに乱し、元のデータ分布を既知の事前分布に変換します。対応する逆 SDE を使用して、以前の分布を元のデータ分布に変換します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

したがって、拡散プロセスを逆にしてデータを生成するには、必要な情報は、各時点における分数関数のみです。スコアマッチング手法を使用すると、次の損失関数を通じてスコア関数を学習できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

2 つの方法と 2 つの関係の詳細については、記事を参照してください。元の拡散モデルの 3 つの主な欠点は、サンプリング速度が遅い、尤度の最大化が不十分であること、およびデータ一般化能力が弱いことです。最近の研究の多くはこれらの欠点に対処しているため、改良された拡散モデルをサンプリング速度の強化、最尤化の強化、およびデータ一般化の強化の 3 つのカテゴリに分類します。次の 3、4、5 セクションで、これら 3 種類のモデルを詳しく紹介します。

3 サンプリング加速法

適用する場合、新しいサンプルの最高品質を達成するために、多くの場合、拡散モデルを処理する必要があります。数千回 新しいサンプルを取得するための 1 万ステップの計算。これにより、拡散モデルの実際の応用価値が制限されます。実際の応用では、多くの場合、処理の次のステップに材料を提供するために多数の新しいサンプルを生成する必要があるからです。

研究者は、拡散モデルのサンプリング速度を向上させるために多くの研究を行ってきました。これらの研究について詳しく説明します。これを、離散化最適化、非マルコフ プロセス、部分サンプリングの 3 つの方法に洗練します。

(1) 離散化最適化手法は、拡散 SDE を解く手法を最適化します。実際には複雑な SDE を解くには実解を近似するために離散解しか使用できないため、このタイプの方法では、サンプルの品質を確保しながら離散ステップの数を削減するために SDE の離散化方法を最適化しようとします。 SGM は、逆方向プロセスを解くための一般的な方法、つまり、順方向プロセスと逆方向プロセスに同じ離散化方法を採用する方法を提案します。順方向 SDE に離散化が与えられている場合:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

# 次に、逆 SDE も同じ方法で離散化できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

この方法は、単純な DDPM よりもわずかに優れています。さらに、SGM は SDE ソルバーに補正機能を追加し、各ステップで生成されるサンプルが正しい分布になるようにします。解法の各ステップで、ソルバーにサンプルが与えられた後、補正器はマルコフ連鎖モンテカルロ法を使用して、生成されたばかりのサンプルの分布を補正します。実験によると、ソルバーに補正器を追加すると、ソルバーのステップ数を直接増やすよりも効率的であることがわかりました。

(2) 非マルコフ過程メソッドは、元のマルコフ過程の制限を打ち破ります。逆プロセスの各ステップは、より多くの過去のサンプルに依存して新しいサンプルを予測できます。ステップ サイズを大きくすると、より適切な予測を行うこともできるため、サンプリング プロセスが高速化されます。その中で、主な作業である DDIM は、フォワード プロセスがマルコフ プロセスであることを前提とせず、次の分布に従います:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

サンプリングDDIM のプロセスは離散化された正規微分方程式として扱うことができるため、サンプリング プロセスはより効率的であり、サンプルの内挿をサポートします。さらなる研究により、DDIM は多様体上拡散モデル PNDM の特殊なケースと見なすことができることがわかりました。

(3) 部分サンプリング法は、生成プロセスで時間ノードの一部を無視し、残りの時間ノードのみを使用してサンプルを生成することにより、サンプリング時間を直接短縮します。たとえば、漸進的蒸留は、トレーニングされた拡散モデルからより効率的な拡散モデルを蒸留します。トレーニングされた拡散モデルの場合、漸進的蒸留は新しい拡散モデルの 1 ステップがトレーニングされた拡散モデルの 2 ステップに対応するように拡散モデルを再トレーニングします。これにより、新しいモデルは古いモデルのサンプリング プロセスの半分を節約できます。具体的なアルゴリズムは次のとおりです。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

この蒸留プロセスを継続的にループさせると、サンプリング ステップを大幅に削減できます。

4 最尤推定の強化

最尤推定における拡散モデルのパフォーマンスは、尤度関数に基づく生成モデルのパフォーマンスより劣りますが、最大画像圧縮、半教師あり学習、敵対的浄化など、多くのアプリケーション シナリオは非常に重要です。対数尤度を直接計算するのは難しいため、研究は主に変分下限 (VLB) の最適化と分析に焦点を当てています。拡散モデルの最尤推定を改善するモデルについて詳しく説明します。私たちはこれを、目標設計、ノイズ スケジュール最適化、学習可能な逆分散という 3 つのカテゴリの手法に細分化します。

(1) 目的 拡散 SDE を使用して、生成されたデータの対数尤度とスコア関数に一致する損失関数の関係を推定する設計手法です。このように、損失関数を適切に設計することで、VLB と対数尤度を最大化できます。 Song らは、プラグイン逆 SDE によって生成されたサンプルの尤度関数値が損失関数値以下になるように、損失関数の重み関数を設計できることを証明しました。尤度関数の上限。分数関数フィッティングの損失関数は次のとおりです。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

重み関数を拡散係数 g(t) に設定するだけで、次のようになります。損失関数は尤度関数の VLB、つまり

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

## (2) ノイズになります。設計に従って最適化をスケジュールするか、VLB を増やすためにフォワード プロセスのノイズの多い進行状況を学習します。 VDM は、離散ステップが無限大に近づくと、損失関数が信号対雑音比関数 SNR(t) の終点によって完全に決定されることを証明します。 # 次に、「離散ステップが無限大に近づくとき」では、信号対雑音比関数 SNR(t) のエンドポイントを学習することで VLB を最適化し、関数値を学習することでモデルの他の側面を改善できます。信号対雑音比関数の中央部分。 3. 学習可能な逆分散法は逆プロセスの分散を学習するため、フィッティング エラーが減少し、VLB を効果的に最大化できます。 Analytic-DPM は、DDPM と DDIM の逆プロセスに最適な期待値と分散があることを証明します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

上記の式とトレーニング済みの Fractional を使用します。関数を使用すると、特定のフォワード プロセスの条件下で、最適な VLB をほぼ達成できます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!5

データ一般化の強化

拡散モデルは、データがユークリッド空間、つまり平面幾何学を持つ多様体に存在すると仮定します。また、ガウス ノイズを追加すると必然的にデータが連続状態空間に変換されるため、拡散モデルは最初は写真などの連続データしか扱えず、離散データやその他のデータ型を直接適用する効果は乏しいです。これにより、普及モデルの適用シナリオが制限されます。

いくつかの研究成果は拡散モデルを他のデータ型に一般化しており、これらの方法について詳しく説明します。特徴空間統合とデータ依存遷移カーネルの 2 種類の手法に分類されます。

(1) 特徴空間統合法は、データを統合潜在空間に変換し、潜在空間上に拡散します。 LSGM は、VAE フレームワークを通じてデータを連続的な潜在空間に変換し、その上に拡散することを提案します。この方法の難しさは、VAE と拡散モデルを同時にトレーニングする方法です。 LSGM は、基礎となる事前分布が扱いにくいため、部分的なマッチング損失が適用されなくなることを示しています。 LSGM は、VAE の従来の損失関数 ELBO を損失関数として直接使用し、ELBO とスコア マッチングの関係を導き出します。

この式は定数を無視します。という意味で確立されています。拡散プロセスにおけるサンプルの分数関数をパラメータ化することにより、LSGM は ELBO を効率的に学習して最適化できます。

(2) データ依存型遷移カーネル法は、データ型の特性に応じて拡散過程における遷移カーネルを設計するため、拡散モデルを特定のデータ型に直接適用できます。 D3PM は、遅延ランダムウォーク、吸収状態などに設定できる離散データ用の遷移カーネルを設計しました。 GEODIFF は、3D 分子グラフ データ用の並進回転不変グラフ ニューラル ネットワークを設計し、不変初期分布と遷移カーネルによって不変周辺分布を導出できることを証明しました。これが次のような平行移動 - 回転変換であると仮定します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

その場合、生成されたサンプル分布にも平行移動 - 回転の不変性があります。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

##6 他の生成モデルとの関係

以下の各セクションでは、最初に他の 5 つの重要なタイプの生成モデルを紹介します。そしてその強みと限界を分析します。次に、拡散モデルがそれらにどのように関連しているかを紹介し、拡散モデルを組み込むことでこれらの生成モデルをどのように改善できるかを説明します。 VAE、GAN、自己回帰モデル、正規化フロー、エネルギーベースのモデル、拡散モデルの関係を以下の図に示します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!


    ##DDPM は、階層的マルコフ VAE (階層的マルコフ VAE) とみなすことができます。ただし、DDPM と一般的な VAE の間には違いもあります。 VAE として、DDPM のエンコーダとデコーダは両方ともガウス分布に従い、マルコフ行を持ちます。隠れ変数の次元はデータ次元と同じです。デコーダのすべての層はニューラル ネットワークを共有します。
  • DDPM は、GAN が不安定なトレーニングの問題を解決するのに役立ちます。データは高次元空間内の低次元多様体にあるため、GAN によって生成されたデータの分布は実際のデータの分布との重なりが低く、その結果、トレーニングが不安定になります。拡散モデルは体系的にノイズを追加するプロセスを提供します. 拡散モデルは生成されたデータと実際のデータにノイズを追加し, ノイズを追加したデータを識別器に送信します. これにより, GANがトレーニングできない問題や、トレーニングが不安定です。
  • 正規化フローは、全単射関数を使用してデータを事前分布に変換します。このアプローチでは、正規化フローの表現能力が制限され、アプリケーションの結果が低下します。アナロジー拡散モデルはエンコーダにノイズを付加することでNormalizing flowの表現力を高めることができますが、見方を変えると、拡散モデルをフォワード処理でも学習できるモデルに拡張するアプローチです。
  • 自己回帰モデルでは、データが特定の構造を持っていることを保証する必要があるため、自己回帰モデルの設計とパラメーター化が非常に困難になります。拡散モデルのトレーニングは、特定のトレーニング方法を通じて設計上の困難を回避する自己回帰モデルのトレーニングに影響を与えました。
  • エネルギーベースのモデルは元のデータの分布を直接モデル化しますが、直接モデリングすると学習とサンプリングが困難になります。拡散回復尤度を使用することにより、モデルは最初にサンプルにわずかなノイズを追加し、次にわずかにノイズのあるサンプル分布から元のサンプルの分布を推測することができるため、学習とサンプリングのプロセスがよりシンプルかつ安定になります。
7

拡散モデルの応用

このセクションでは、コンピューター ビジョンと自然言語処理における拡散モデルの応用について紹介します。 、波形信号処理、マルチモーダル学習、分子グラフ生成、時系列および敵対的学習など、7 つの主要な応用方向のアプリケーションと、それぞれの種類のアプリケーションにおける手法を細分化して分析します。たとえば、コンピュータ ビジョンでは、拡散モデルを画像の完成と修復 (再ペイント) に使用できます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

マルチモーダル タスクでは、拡散モデルテキストから画像への生成 (GLIDE) を使用できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

拡散モデルを使用して、分子グラフで薬物分子やタンパク質分子を生成することもできます世代 (GeoDiff):

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

#アプリケーション分類の概要を表に示します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!

##8 今後の研究の方向性

  • 仮説の再検証を適用します。アプリケーションにおいて一般的に受け入れられている仮定を検討する必要があります。たとえば、実際には、拡散モデルの前方プロセスによってデータが標準ガウス分布に変換されると一般に考えられていますが、これは当てはまりません。前方拡散ステップを増やすと、最終的なサンプル分布が標準ガウス分布に近づきます。 、サンプリング プロセスと一致します。 ; しかし、前方拡散ステップが増えると、分数関数の推定も難しくなります。理論的な条件を得るのが難しいため、実際には理論と実践の間に不一致が生じます。私たちはこの状況を認識し、適切な普及モデルを設計する必要があります。
  • 離散時間から連続時間へ。拡散モデルの柔軟性により、多くの経験的手法はさらなる分析によって強化できます。この研究アイデアは、離散時間モデルを対応する連続時間モデルに変換し、より多くのより優れた離散手法を設計することによって有望です。
  • 新しい生成プロセス。拡散モデルは 2 つの主な方法でサンプルを生成します: 1 つは逆拡散 SDE を離散化し、次に離散化された逆 SDE を通じてサンプルを生成する方法、もう 1 つは逆プロセスのマルコフ特性を使用してサンプルから徐々にノイズを除去する方法です。ただし、一部のタスクでは、これらの方法を適用して実際にサンプルを生成するのは困難です。したがって、新しい生成プロセスと視点についてのさらなる研究が必要です。
  • より複雑なシナリオとより多くの研究領域に一般化します。拡散モデルは多くのシナリオに適用されていますが、そのほとんどは単一入力および単一出力のシナリオに限定されており、将来的には、テキストからオーディオビジュアルへの音声合成など、より複雑なシナリオへの適用を検討できます。より多くの研究分野と組み合わせることも検討できます。

以上が最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。