ホームページ  >  記事  >  テクノロジー周辺機器  >  初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

WBOY
WBOY転載
2023-04-04 11:50:071270ブラウズ

OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。それ以前は、敵対的生成ネットワーク (GAN) が常に主流の選択肢であり、StyleGAN から派生しました。 . およびその他のテクノロジー。

AIGC の爆発の背後で、技術的な観点から見ると、画像生成モデルのアーキテクチャは大きな変化を遂げました。

OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。これらはすべて主流の選択肢であり、StyleGAN などの派生テクノロジーがあります。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

GAN から拡散モデルへのアーキテクチャの移行により、「GAN モデルの規模を拡大できるか?」という疑問も生じます。 、たとえば、LAION のような大規模なデータセットのパフォーマンスをさらに向上させることはできますか?

最近、浦項科学技術大学 (韓国)、カーネギーメロン大学、および Adob​​e Research の研究者は、StyleGAN アーキテクチャの容量を増やすと不安定性が生じると提案しました。敵対的生成ネットワーク アーキテクチャである GigaGAN は、モデルのサイズ制限を突破し、GAN が依然としてテキストから画像への合成モデルとして機能できることを示しています。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

論文リンク: https://arxiv.org/abs/2303.05511

プロジェクトリンク: https://mingukkang. github.io/GigaGAN/

GigaGAN には 3 つの大きな利点があります。

1. 推論時の高速化 同レベルのパラメータの Stable Diffusion-v1.5 と比較して、512 解像度での生成速度が 2.9 秒から 0.13 秒に短縮されました。 。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

2. 高解像度の画像を合成できます。たとえば、16 メガピクセルの画像を 3.66 で合成できます。秒。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#3. 潜在補間、スタイル混合、ベクトル算術演算など、さまざまな潜在空間編集アプリケーションをサポートします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#GAN は限界に達しましたか?

最近リリースされた DALL-E 2、Imagen、Parti、Stable Diffusion などのモデル シリーズは、画像生成の新時代の到来を告げ、前例のないレベルの画質とモデルの柔軟性に到達しました。

現在主流のパラダイムである「拡散モデル」と「自己回帰モデル」は両方とも、反復推論という諸刃の剣に依存しています。これは、反復手法は単純な目標で安定したトレーニングを実行できるためですが、推論ではより高い計算コストがかかります。その過程で発生したもの。

対照的に、敵対的生成ネットワーク (GAN) では、画像の生成に 1 回の順方向パスのみが必要なため、本質的に効率が高くなります。

GAN モデルは生成モデリングの「前時代」を支配していましたが、トレーニング プロセスの不安定性のため、GAN を拡張するにはネットワーク構造とトレーニングの考慮事項を慎重に調整する必要があります。単一または複数のオブジェクト カテゴリのモデリングには優れていますが、(オープンワールド オブジェクトの生成は言うまでもなく) 複雑なデータセットへのスケーリングは依然として困難です。

したがって、現在、非常に大規模なモデル、データ、およびコンピューティング リソースは、主に拡散モデルと自己回帰モデルに焦点を当てています。

この研究では、研究者は主に次の質問に取り組みます:

GAN は拡張を継続でき、これらのリソースから潜在的に恩恵を受けることができますか?それともGANはすでに限界に達しているのでしょうか? GAN のさらなる拡大を妨げるものは何でしょうか?これらの障害を克服できるでしょうか?

安定したトレーニング GAN

研究者たちは、最初に StyleGAN2 を使って実験を行い、単にバックボーン ネットワークを拡張するだけではトレーニングが不安定になることを観察しました。モデルの能力を向上させながらトレーニングを安定させるための方法が提案されています。

まず、フィルターのバンクを保持し、特定のサンプルの線形結合を取得することで、ジェネレーターの容量を効果的に拡張します。

拡散モデルのコンテキストで一般的に使用されるいくつかの手法を適応させ、セルフ アテンション メカニズム (画像のみ) やクロス アテンションの組み込みなど、同様のパフォーマンス向上を GAN にもたらすことができることを確認しました。 (画像とテキスト) を畳み込み層と組み合わせることでパフォーマンスが向上します。

さらに、研究者らはマルチスケール トレーニングを再導入し、画像とテキストの位置合わせを改善し、出力に低周波の詳細を生成できる新しいスキームを発見しました。

マルチスケール トレーニングにより、GAN ベースのジェネレーターは低解像度ブロックのパラメーターをより効率的に使用できるようになり、画像とテキストの位置合わせと画質が向上します。 ############ビルダー#########

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

GigaGAN のジェネレーターは、テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、およびマルチスケール合成ネットワークで構成されます。ネットワーク)、安定した注意とサポートによって補完されます。適応的なカーネル選択。

テキスト エンコーディング ブランチでは、事前トレーニングされた CLIP モデルと学習されたアテンション レイヤー T を最初に使用してテキスト埋め込みが抽出され、次に埋め込みプロセスがスタイル マッピング ネットワークに渡されます。 M、StyleGAN と同様のスタイル ベクトルを生成します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

##合成ネットワークは、スタイル エンコーディングを変調として使用し、テキストの埋め込みをアテンションとして使用します。画像ピラミッドを作成し、これに基づいて、入力テキスト条件に基づいて畳み込みカーネルの適応選択を実現するサンプル適応カーネル選択アルゴリズムを導入します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#識別子

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

ジェネレーターと同様に、GigaGAN のディスクリミネーターは 2 つのブランチで構成されており、それぞれ画像とテキストの条件を処理するために使用されます。

テキスト ブランチは、ジェネレーターのテキスト ブランチと同様の処理を行います。画像ブランチは、画像ピラミッドを入力として受け取り、画像スケールごとに独立した予測を行います。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

# 高速収束を促進するために、複数の追加の損失関数が式に導入されています。

実験結果

大規模なテキスト画像合成タスクの体系的かつ制御された評価は、ほとんどの既存モデルが公開されていないため、たとえトレーニングが行われていても利用可能であるため、困難です。コードが利用可能であっても、新しいモデルを最初からトレーニングするコストは法外に高くなります。

研究者らは、トレーニング データ セット、数値に大きな違いがあることを認識しながら、実験で Imagen、潜在拡散モデル (LDM)、安定拡散、および Parti と比較することを選択しました。反復回数、バッチ サイズ、モデル サイズなど、かなりの違いがあります。

定量的な評価指標としては、主に出力分布の信頼性を測定するために Frechet Inception Distance (FID) が使用され、画像とテキストの位置合わせを評価するために CLIP スコアが使用されます。

#この文書では 5 つの異なる実験が行われました:

#1. 各技術コンポーネントを段階的に組み込むことによって、提案された方法の有効性を実証します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

2. テキスト画像合成の結果は、GigaGAN が安定拡散 (SD-v1.5) FID と同等のパフォーマンスを発揮することを示しています。拡散モデルや自己回帰モデルよりも数百倍速く結果を生成しながら、

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#3. GigaGAN と蒸留の比較を比較します。ベースの拡散モデルは、GigaGAN が蒸留ベースの拡散モデルよりも高速に高品質の画像を合成できることを示しています;

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

##4.条件付きおよび無条件の超解像度タスクにおける他のアップサンプラーに対する GigaGAN のアップサンプラーの利点;

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

5. 結果は、その大きな効果を示しています。スケール GAN は依然として GAN の連続的かつ分解された潜在空間操作を享受しており、新しい画像編集モードを可能にします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

パラメータを調整した後、研究者は LAION2B-en などの大規模なデータセットで安定性と信頼性を達成しました。拡張された 10 億パラメータ GAN (GigaGAN)。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

そして、この方法は多段階アプローチを採用しており、最初に 64×64 で生成し、次に 512 × にアップサンプリングします。 512 では、どちらのネットワークもモジュール式であり、プラグ アンド プレイ方式で使用できるほど強力です。

結果は、トレーニング中に拡散モデルの画像が表示されることはありませんが、テキスト条件に基づく GAN アップサンプリング ネットワークが、基本的な拡散モデル (DALL-E など) の効率的で高品質なアップサンプラーとして使用できることを示しています。 2)。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

これらの結果を組み合わせると、GigaGAN は以前の GAN モデルをはるかに超え、StyleGAN2 の 36 倍、StyleGAN の 6 倍になります。 XL と XMC-GAN。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#GiGAN の 10 億パラメータは、Imagen (3B) など、最近リリースされた最大の合成モデルよりもまだ少ないですが、 DALL-E 2 (5.5B) および Parti (20B) ですが、モデル サイズに関する質量飽和はまだ観察されていません。

#GigaGAN は、COCO2014 データセットで 9.09 のゼロショット FID を達成しました。これは、DALL-E 2、Parti-750M、および安定拡散の FID よりも低いです

アプリケーションシナリオ

プロンプト補間

GigaGAN はプロンプト間をスムーズに補間できます。下図の四隅は同じ Latent コードで形成されています生成されますが、テキスト プロンプトが異なります。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

解きほぐされたプロンプトミキシング

GigaGAN 予約済み 分離された潜在空間により結合が可能あるサンプルの粗いスタイルと別のサンプルの細かいスタイルを組み合わせたり、GigaGAN はテキストヒントを通じてスタイルを直接制御したりできます。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

粗いスタイルから細かいスタイルへの切り替え

GAN ベースのモデルアーキテクチャは独立した潜在空間を保存し、あるサンプルの粗いスタイルを別のサンプルの細かいスタイルと混合できるようにします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

参考:

https://mingukkang.github.io/GigaGAN/

以上が初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。