ホームページ >テクノロジー周辺機器 >AI >拡散モデルはアルゴリズムの問題を克服し、AGI は遠くありません。 Google Brain が迷路の最短経路を見つける
「拡散モデル」はアルゴリズムの問題も克服できるのでしょうか?
写真
博士研究者は、「離散拡散」を使用して、次の最短経路で表される画像を見つけるという興味深い実験を行いました。迷路。
写真
著者によると、各迷路は水平の壁と垂直の壁を繰り返し追加することで生成されます。
このうち、開始点と目標点はランダムに選択されます。
始点から目標点までの最短経路からランダムに経路を解として抽出します。最短パスは正確なアルゴリズムを使用して計算されます。
写真
次に、離散拡散モデルと U-Net を使用します。
開始点とゴールの迷路は 1 つのチャネルでエンコードされ、モデルは別のチャネルのソリューションを使用して迷路のノイズを除去します。
写真
迷路がどんなに難しくても、上手に作ることができます。
図
ノイズ除去ステップ p(x_{t-1} | x_t) を推定するために、アルゴリズムは次のようにします。 p( x_0 | x_t) を推定します。プロセス中にこの推定値 (下の行) を視覚化すると、「現在の仮定」が表示され、最終的には結果に焦点が当てられます。
写真
NVIDIA の上級科学者 Jim Fan 氏は、これは興味深い実験であり、拡散モデルは、アルゴリズム。 Transforme よりもはるかに弱い U-Net を使用しても、ピクセルのみから迷路探索を実装できます。
私は常々、拡散モデルがレンダラーであり、Transformer が推論エンジンだと考えてきました。レンダラー自体も非常に複雑な逐次アルゴリズムをエンコードできるようです。
写真
この実験は単にネチズンに衝撃を与えました。「拡散モデルで他に何ができるの?!」
写真
誰かが十分なデータセットで拡散変換器を訓練すれば、AGI は解決されるだろうと言う人もいます。
写真
ただし、この研究はまだ正式に発表されておらず、著者はarxivで更新されると述べています後で。
この実験では、2021 年に Google Brain チームによって提案された離散拡散モデルが使用されたことは注目に値します。
写真
つい最近、この研究が新しい版に更新されました。
「生成モデル」は機械学習の中核問題です。
これは、自然データセットの統計を取得する能力の尺度としても、画像、テキスト、音声などの高次元データを生成する必要がある下流アプリケーションでも使用できます。
GAN、VAE、大規模な自己回帰ニューラル ネットワーク モデル、正規化フロー、その他の手法には、サンプル品質、サンプリング速度、対数尤度、トレーニングの安定性という点で独自の利点があります。
最近、「拡散モデル」が画像と音声生成の最も一般的な代替手段となっています。
より少ない推論ステップで、GAN に匹敵するサンプル品質と自己回帰モデルに匹敵する対数尤度を実現できます。
写真
論文アドレス: https://www.php.cn/link/46994a3cd8d943d03b44b8fc9792d435
離散状態空間と連続状態空間の拡散モデルは提案されていますが、最近の研究は主に連続状態空間 (実数値画像や波形データなど) で動作するガウス拡散過程に焦点を当てています。
離散状態空間拡散モデルは、テキストおよび画像のセグメンテーションの分野で研究されてきましたが、大規模なテキストおよび画像の生成タスクにおいて競争力のあるソリューションであることはまだ証明されていません。 。
Google 研究チームは、新しい離散ノイズ除去拡散確率モデル (D3PM) を提案しました。
研究では、著者らは遷移マトリックスの選択が、画像領域とテキスト領域の両方で結果を向上させることができる重要な設計上の決定であることを実証しています。
さらに、変分下限と補助クロスエントロピー損失を組み合わせた新しい損失関数を提案しました。
テキストに関しては、このモデルは文字レベルのテキスト生成で良好な結果を達成しており、大語彙の LM1B データセットに拡張できます。
CIFAR-10 画像データセットでは、最新のモデルは連続空間 DDPM モデルのサンプル品質に近づき、連続空間 DDPM モデルの対数尤度を超えています。
写真
Arnaud Pannatier
Arnaud Pannatier は、2020 年 3 月に上司の François Fleuret の機械学習グループで博士号の勉強を始めました。
彼は最近、スーパー ネットワークを使用して MLPMixer がさまざまな長さの入力を処理できるようにする HyperMixer を開発しました。これにより、モデルは順列不変の方法で入力を処理できるようになり、入力の長さに応じて線形にスケールする注意深い動作をモデルに与えることが示されています。
EPFL では、物理学の学士号とコンピュータ サイエンスおよびエンジニアリング (CSE-MASH) の修士号を取得しました。
以上が拡散モデルはアルゴリズムの問題を克服し、AGI は遠くありません。 Google Brain が迷路の最短経路を見つけるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。