ホームページ >テクノロジー周辺機器 >AI >初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。
OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。それ以前は、敵対的生成ネットワーク (GAN) が常に主流の選択肢であり、StyleGAN から派生しました。 . およびその他のテクノロジー。
AIGC の爆発の背後で、技術的な観点から見ると、画像生成モデルのアーキテクチャは大きな変化を遂げました。
OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。これらはすべて主流の選択肢であり、StyleGAN などの派生テクノロジーがあります。
GAN から拡散モデルへのアーキテクチャの移行により、「GAN モデルの規模を拡大できるか?」という疑問も生じます。 、たとえば、LAION のような大規模なデータセットのパフォーマンスをさらに向上させることはできますか?
最近、浦項科学技術大学 (韓国)、カーネギーメロン大学、および Adobe Research の研究者は、StyleGAN アーキテクチャの容量を増やすと不安定性が生じると提案しました。敵対的生成ネットワーク アーキテクチャである GigaGAN は、モデルのサイズ制限を突破し、GAN が依然としてテキストから画像への合成モデルとして機能できることを示しています。
論文リンク: https://arxiv.org/abs/2303.05511
プロジェクトリンク: https://mingukkang. github.io/GigaGAN/
GigaGAN には 3 つの大きな利点があります。
1. 推論時の高速化 同レベルのパラメータの Stable Diffusion-v1.5 と比較して、512 解像度での生成速度が 2.9 秒から 0.13 秒に短縮されました。 。
最近リリースされた DALL-E 2、Imagen、Parti、Stable Diffusion などのモデル シリーズは、画像生成の新時代の到来を告げ、前例のないレベルの画質とモデルの柔軟性に到達しました。
現在主流のパラダイムである「拡散モデル」と「自己回帰モデル」は両方とも、反復推論という諸刃の剣に依存しています。これは、反復手法は単純な目標で安定したトレーニングを実行できるためですが、推論ではより高い計算コストがかかります。その過程で発生したもの。
対照的に、敵対的生成ネットワーク (GAN) では、画像の生成に 1 回の順方向パスのみが必要なため、本質的に効率が高くなります。
GAN モデルは生成モデリングの「前時代」を支配していましたが、トレーニング プロセスの不安定性のため、GAN を拡張するにはネットワーク構造とトレーニングの考慮事項を慎重に調整する必要があります。単一または複数のオブジェクト カテゴリのモデリングには優れていますが、(オープンワールド オブジェクトの生成は言うまでもなく) 複雑なデータセットへのスケーリングは依然として困難です。
したがって、現在、非常に大規模なモデル、データ、およびコンピューティング リソースは、主に拡散モデルと自己回帰モデルに焦点を当てています。
この研究では、研究者は主に次の質問に取り組みます:
GAN は拡張を継続でき、これらのリソースから潜在的に恩恵を受けることができますか?それともGANはすでに限界に達しているのでしょうか? GAN のさらなる拡大を妨げるものは何でしょうか?これらの障害を克服できるでしょうか?
研究者たちは、最初に StyleGAN2 を使って実験を行い、単にバックボーン ネットワークを拡張するだけではトレーニングが不安定になることを観察しました。モデルの能力を向上させながらトレーニングを安定させるための方法が提案されています。
まず、フィルターのバンクを保持し、特定のサンプルの線形結合を取得することで、ジェネレーターの容量を効果的に拡張します。
拡散モデルのコンテキストで一般的に使用されるいくつかの手法を適応させ、セルフ アテンション メカニズム (画像のみ) やクロス アテンションの組み込みなど、同様のパフォーマンス向上を GAN にもたらすことができることを確認しました。 (画像とテキスト) を畳み込み層と組み合わせることでパフォーマンスが向上します。
さらに、研究者らはマルチスケール トレーニングを再導入し、画像とテキストの位置合わせを改善し、出力に低周波の詳細を生成できる新しいスキームを発見しました。
マルチスケール トレーニングにより、GAN ベースのジェネレーターは低解像度ブロックのパラメーターをより効率的に使用できるようになり、画像とテキストの位置合わせと画質が向上します。 ############ビルダー#########
GigaGAN のジェネレーターは、テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、およびマルチスケール合成ネットワークで構成されます。ネットワーク)、安定した注意とサポートによって補完されます。適応的なカーネル選択。
テキスト エンコーディング ブランチでは、事前トレーニングされた CLIP モデルと学習されたアテンション レイヤー T を最初に使用してテキスト埋め込みが抽出され、次に埋め込みプロセスがスタイル マッピング ネットワークに渡されます。 M、StyleGAN と同様のスタイル ベクトルを生成します。
#識別子
ジェネレーターと同様に、GigaGAN のディスクリミネーターは 2 つのブランチで構成されており、それぞれ画像とテキストの条件を処理するために使用されます。
テキスト ブランチは、ジェネレーターのテキスト ブランチと同様の処理を行います。画像ブランチは、画像ピラミッドを入力として受け取り、画像スケールごとに独立した予測を行います。
2. テキスト画像合成の結果は、GigaGAN が安定拡散 (SD-v1.5) FID と同等のパフォーマンスを発揮することを示しています。拡散モデルや自己回帰モデルよりも数百倍速く結果を生成しながら、
##4.条件付きおよび無条件の超解像度タスクにおける他のアップサンプラーに対する GigaGAN のアップサンプラーの利点;
結果は、トレーニング中に拡散モデルの画像が表示されることはありませんが、テキスト条件に基づく GAN アップサンプリング ネットワークが、基本的な拡散モデル (DALL-E など) の効率的で高品質なアップサンプラーとして使用できることを示しています。 2)。
これらの結果を組み合わせると、GigaGAN は以前の GAN モデルをはるかに超え、StyleGAN2 の 36 倍、StyleGAN の 6 倍になります。 XL と XMC-GAN。
#GigaGAN は、COCO2014 データセットで 9.09 のゼロショット FID を達成しました。これは、DALL-E 2、Parti-750M、および安定拡散の FID よりも低いです
アプリケーションシナリオ
GigaGAN はプロンプト間をスムーズに補間できます。下図の四隅は同じ Latent コードで形成されています生成されますが、テキスト プロンプトが異なります。
解きほぐされたプロンプトミキシング
GigaGAN 予約済み 分離された潜在空間により結合が可能あるサンプルの粗いスタイルと別のサンプルの細かいスタイルを組み合わせたり、GigaGAN はテキストヒントを通じてスタイルを直接制御したりできます。
GAN ベースのモデルアーキテクチャは独立した潜在空間を保存し、あるサンプルの粗いスタイルを別のサンプルの細かいスタイルと混合できるようにします。
以上が初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。