ホームページ >テクノロジー周辺機器 >AI >ソフト拡散: Google の新しいフレームワークは、普遍的な拡散プロセスを正しくスケジュールし、学習し、サンプリングします。
スコアベース モデルとノイズ除去拡散確率モデル (DDPM) は、拡散プロセスを反転してサンプルを生成する 2 つの強力なタイプの生成モデルであることがわかっています。これら 2 種類のモデルは、Yang Song らの論文「確率微分方程式によるスコアベースの生成モデリング」で 1 つの枠組みに統合されており、拡散モデルとして広く知られています。
現在、拡散モデルは、画像、オーディオ、ビデオの生成や逆問題の解決などの一連のアプリケーションで大きな成功を収めています。 「拡散ベースの生成モデルの設計空間の解明」という論文の中で、Tero Karras などの研究者は拡散モデルの設計空間を分析し、i) ノイズ レベルのスケジューリングの選択、ii) ネットワーク パラメータの選択という 3 つの段階を特定しました。 iii) サンプリング アルゴリズムを設計します。
最近、Google Research と UT-Austin が共同で実施した arXiv の論文「Soft Diffusion: Score Matching for General Corruptions」では、数人の研究者が、拡散モデルにはまだ重要なステップがあると考えています。 : 腐敗。一般に、破損はさまざまな振幅のノイズを追加するプロセスであり、DDMP の場合は再スケーリングも必要です。普及のためにさまざまなディストリビューションを使用する試みがなされてきましたが、一般的な枠組みはまだ不足しています。したがって、研究者らは、より一般的な損傷プロセスのための拡散モデル設計フレームワークを提案しました。
具体的には、ソフト スコア マッチングと呼ばれる新しいトレーニング目標と、新しいサンプリング手法であるモメンタム サンプラーを提案しました。理論的結果は、規則性条件を満たす損傷プロセスについて、ソフト スコア マッチングが、拡散によってあらゆる画像が非ゼロの尤度を持つあらゆる画像に変換される必要があるというスコア (つまり、尤度勾配) を学習できることを示しています。
実験部分では、研究者は CelebA と CIFAR-10 でモデルをトレーニングしました。CelebA でトレーニングされたモデルは、線形拡散モデルの SOTA FID スコア - 1.85 を達成しました。同時に、研究者によってトレーニングされたモデルは、元のガウスノイズ除去拡散を使用してトレーニングされたモデルよりも大幅に高速です。
論文アドレス: https://arxiv.org/pdf/2209.05442.pdf # #方法の概要
#具体的には、研究者らは、より一般的な損傷モデルを使用して拡散モデルをトレーニングするためのフレームワークを実証しました。拡散モデルは 3 つの部分で構成され、それぞれが新しいトレーニング目標、ソフト スコア マッチング、新しいサンプリング方法モメンタム サンプラー、ダメージ メカニズムのスケジューリング。
まず、トレーニング ターゲットであるソフト スコア マッチングについて見てみましょう。名前は、細かい部分を除去するフィルターを指す写真用語のソフト フィルターに由来しています。従来の線形損傷プロセスの一部を証明可能な方法で学習し、ネットワークにフィルタリング プロセスも組み込んで、拡散観察と一致する損傷後の画像を予測するようにモデルをトレーニングします。
このトレーニング目標は、拡散がクリーンで破損した画像のペアにゼロ以外の確率を割り当てる限り、スコアが学習されていることを証明できます。さらに、この条件は、ダメージに付加的なノイズが存在する場合に常に満たされます。
具体的には、研究者は次の形式で損傷プロセスを調査しました。
その過程で、研究者らは、ノイズには経験的 (つまり、より良い結果) と理論的 (つまり、分数の学習) の両方の利点があることを発見しました。とても重要です。これは、決定論的な破損を逆転させる同時作業である Cold Diffusion との重要な違いにもなります。
2 つ目は、Momentum Sampling というサンプリング方法です。研究者らは、サンプラーの選択が生成されるサンプルの品質に大きな影響を与えることを実証しました。彼らは、普遍的な線形ダメージプロセスを逆転させるための Momentum Sampler を提案しました。サンプラーは、異なる拡散レベルを持つダメージの凸状の組み合わせを使用し、最適化における運動量手法からインスピレーションを得ています。
このサンプリング方法は、上記の Yang Song らの論文で提案された拡散モデルの連続定式化からインスピレーションを得ています。 Momentum Sampler のアルゴリズムを以下に示します。
#次の図は、生成されたサンプルの品質に対するさまざまなサンプリング方法の影響を視覚的に示しています。左側の Naive Sampler でサンプリングされた画像は繰り返しが多く詳細が欠けているように見えますが、右側の Momentum Sampler ではサンプリング品質と FID スコアが大幅に向上しています。
最後はスケジュールです。劣化のタイプが事前に定義されている場合でも (ぼかしなど)、各拡散ステップでどの程度のダメージを与えるかを決定するのは簡単ではありません。研究者らは、損傷プロセスの設計をガイドするための原則に基づいたツールを提案しています。スケジュールを見つけるために、パスに沿った分布間のワッサーシュタイン距離を最小化します。研究者は直感的に、完全に破損したディストリビューションからクリーンなディストリビューションへのスムーズな移行を望んでいます。
実験結果研究者らは、どちらも画像生成の標準ベースラインである CelebA-64 と CIFAR-10 で提案された方法を評価しました。実験の主な目的は、損傷タイプの役割を理解することです。
研究者らはまず、損傷にぼやけと低振幅のノイズを使用しようとしました。結果は、彼らの提案したモデルが CelebA で SOTA 結果、つまり 1.85 の FID スコアを達成し、ノイズを追加して画像を再スケーリングするだけの他のすべての方法よりも優れていることを示しています。また、CIFAR-10で得られたFIDスコアは4.64であり、SOTAには及ばないものの競争力がある。
さらに、CIFAR-10 および CelebA データセットでは、研究者の方法は、別の指標であるサンプリング時間でも良好なパフォーマンスを示しました。もう 1 つの追加の利点は、計算上の大きな利点です。ブレ除去 (ノイズがほとんどない) は、画像生成のノイズ除去方法と比較して、より効率的な操作であるように見えます。
以下のグラフは、関数評価 (NFE) の数に応じて FID スコアがどのように変化するかを示しています。結果からわかるように、私たちのモデルは、CIFAR-10 および CelebA データセットで大幅に少ないステップを使用して、標準ガウス ノイズ除去拡散モデルと同等以上の品質を達成できます。
以上がソフト拡散: Google の新しいフレームワークは、普遍的な拡散プロセスを正しくスケジュールし、学習し、サンプリングします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。