初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。
OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。それ以前は、敵対的生成ネットワーク (GAN) が常に主流の選択肢であり、StyleGAN から派生しました。 . およびその他のテクノロジー。
AIGC の爆発の背後で、技術的な観点から見ると、画像生成モデルのアーキテクチャは大きな変化を遂げました。
OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。これらはすべて主流の選択肢であり、StyleGAN などの派生テクノロジーがあります。
GAN から拡散モデルへのアーキテクチャの移行により、「GAN モデルの規模を拡大できるか?」という疑問も生じます。 、たとえば、LAION のような大規模なデータセットのパフォーマンスをさらに向上させることはできますか?
最近、浦項科学技術大学 (韓国)、カーネギーメロン大学、および Adobe Research の研究者は、StyleGAN アーキテクチャの容量を増やすと不安定性が生じると提案しました。敵対的生成ネットワーク アーキテクチャである GigaGAN は、モデルのサイズ制限を突破し、GAN が依然としてテキストから画像への合成モデルとして機能できることを示しています。
論文リンク: https://arxiv.org/abs/2303.05511
プロジェクトリンク: https://mingukkang. github.io/GigaGAN/
GigaGAN には 3 つの大きな利点があります。
1. 推論時の高速化 同レベルのパラメータの Stable Diffusion-v1.5 と比較して、512 解像度での生成速度が 2.9 秒から 0.13 秒に短縮されました。 。
最近リリースされた DALL-E 2、Imagen、Parti、Stable Diffusion などのモデル シリーズは、画像生成の新時代の到来を告げ、前例のないレベルの画質とモデルの柔軟性に到達しました。
現在主流のパラダイムである「拡散モデル」と「自己回帰モデル」は両方とも、反復推論という諸刃の剣に依存しています。これは、反復手法は単純な目標で安定したトレーニングを実行できるためですが、推論ではより高い計算コストがかかります。その過程で発生したもの。
対照的に、敵対的生成ネットワーク (GAN) では、画像の生成に 1 回の順方向パスのみが必要なため、本質的に効率が高くなります。
GAN モデルは生成モデリングの「前時代」を支配していましたが、トレーニング プロセスの不安定性のため、GAN を拡張するにはネットワーク構造とトレーニングの考慮事項を慎重に調整する必要があります。単一または複数のオブジェクト カテゴリのモデリングには優れていますが、(オープンワールド オブジェクトの生成は言うまでもなく) 複雑なデータセットへのスケーリングは依然として困難です。
したがって、現在、非常に大規模なモデル、データ、およびコンピューティング リソースは、主に拡散モデルと自己回帰モデルに焦点を当てています。
この研究では、研究者は主に次の質問に取り組みます:
GAN は拡張を継続でき、これらのリソースから潜在的に恩恵を受けることができますか?それともGANはすでに限界に達しているのでしょうか? GAN のさらなる拡大を妨げるものは何でしょうか?これらの障害を克服できるでしょうか?
研究者たちは、最初に StyleGAN2 を使って実験を行い、単にバックボーン ネットワークを拡張するだけではトレーニングが不安定になることを観察しました。モデルの能力を向上させながらトレーニングを安定させるための方法が提案されています。
まず、フィルターのバンクを保持し、特定のサンプルの線形結合を取得することで、ジェネレーターの容量を効果的に拡張します。
拡散モデルのコンテキストで一般的に使用されるいくつかの手法を適応させ、セルフ アテンション メカニズム (画像のみ) やクロス アテンションの組み込みなど、同様のパフォーマンス向上を GAN にもたらすことができることを確認しました。 (画像とテキスト) を畳み込み層と組み合わせることでパフォーマンスが向上します。
さらに、研究者らはマルチスケール トレーニングを再導入し、画像とテキストの位置合わせを改善し、出力に低周波の詳細を生成できる新しいスキームを発見しました。
マルチスケール トレーニングにより、GAN ベースのジェネレーターは低解像度ブロックのパラメーターをより効率的に使用できるようになり、画像とテキストの位置合わせと画質が向上します。 ############ビルダー#########
GigaGAN のジェネレーターは、テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、およびマルチスケール合成ネットワークで構成されます。ネットワーク)、安定した注意とサポートによって補完されます。適応的なカーネル選択。
テキスト エンコーディング ブランチでは、事前トレーニングされた CLIP モデルと学習されたアテンション レイヤー T を最初に使用してテキスト埋め込みが抽出され、次に埋め込みプロセスがスタイル マッピング ネットワークに渡されます。 M、StyleGAN と同様のスタイル ベクトルを生成します。
#識別子
ジェネレーターと同様に、GigaGAN のディスクリミネーターは 2 つのブランチで構成されており、それぞれ画像とテキストの条件を処理するために使用されます。
テキスト ブランチは、ジェネレーターのテキスト ブランチと同様の処理を行います。画像ブランチは、画像ピラミッドを入力として受け取り、画像スケールごとに独立した予測を行います。
2. テキスト画像合成の結果は、GigaGAN が安定拡散 (SD-v1.5) FID と同等のパフォーマンスを発揮することを示しています。拡散モデルや自己回帰モデルよりも数百倍速く結果を生成しながら、
##4.条件付きおよび無条件の超解像度タスクにおける他のアップサンプラーに対する GigaGAN のアップサンプラーの利点;
結果は、トレーニング中に拡散モデルの画像が表示されることはありませんが、テキスト条件に基づく GAN アップサンプリング ネットワークが、基本的な拡散モデル (DALL-E など) の効率的で高品質なアップサンプラーとして使用できることを示しています。 2)。
これらの結果を組み合わせると、GigaGAN は以前の GAN モデルをはるかに超え、StyleGAN2 の 36 倍、StyleGAN の 6 倍になります。 XL と XMC-GAN。
#GigaGAN は、COCO2014 データセットで 9.09 のゼロショット FID を達成しました。これは、DALL-E 2、Parti-750M、および安定拡散の FID よりも低いです
アプリケーションシナリオ
GigaGAN はプロンプト間をスムーズに補間できます。下図の四隅は同じ Latent コードで形成されています生成されますが、テキスト プロンプトが異なります。
解きほぐされたプロンプトミキシング
GigaGAN 予約済み 分離された潜在空間により結合が可能あるサンプルの粗いスタイルと別のサンプルの細かいスタイルを組み合わせたり、GigaGAN はテキストヒントを通じてスタイルを直接制御したりできます。
GAN ベースのモデルアーキテクチャは独立した潜在空間を保存し、あるサンプルの粗いスタイルを別のサンプルの細かいスタイルと混合できるようにします。
以上が初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
