検索
ホームページテクノロジー周辺機器AI初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。それ以前は、敵対的生成ネットワーク (GAN) が常に主流の選択肢であり、StyleGAN から派生しました。 . およびその他のテクノロジー。

AIGC の爆発の背後で、技術的な観点から見ると、画像生成モデルのアーキテクチャは大きな変化を遂げました。

OpenAI による DALL-E 2 のリリースにより、自己回帰モデルと拡散モデルは一夜にして大規模な生成モデルの新しい標準になりました。これらはすべて主流の選択肢であり、StyleGAN などの派生テクノロジーがあります。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

GAN から拡散モデルへのアーキテクチャの移行により、「GAN モデルの規模を拡大できるか?」という疑問も生じます。 、たとえば、LAION のような大規模なデータセットのパフォーマンスをさらに向上させることはできますか?

最近、浦項科学技術大学 (韓国)、カーネギーメロン大学、および Adob​​e Research の研究者は、StyleGAN アーキテクチャの容量を増やすと不安定性が生じると提案しました。敵対的生成ネットワーク アーキテクチャである GigaGAN は、モデルのサイズ制限を突破し、GAN が依然としてテキストから画像への合成モデルとして機能できることを示しています。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

論文リンク: https://arxiv.org/abs/2303.05511

プロジェクトリンク: https://mingukkang. github.io/GigaGAN/

GigaGAN には 3 つの大きな利点があります。

1. 推論時の高速化 同レベルのパラメータの Stable Diffusion-v1.5 と比較して、512 解像度での生成速度が 2.9 秒から 0.13 秒に短縮されました。 。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

2. 高解像度の画像を合成できます。たとえば、16 メガピクセルの画像を 3.66 で合成できます。秒。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#3. 潜在補間、スタイル混合、ベクトル算術演算など、さまざまな潜在空間編集アプリケーションをサポートします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#GAN は限界に達しましたか?

最近リリースされた DALL-E 2、Imagen、Parti、Stable Diffusion などのモデル シリーズは、画像生成の新時代の到来を告げ、前例のないレベルの画質とモデルの柔軟性に到達しました。

現在主流のパラダイムである「拡散モデル」と「自己回帰モデル」は両方とも、反復推論という諸刃の剣に依存しています。これは、反復手法は単純な目標で安定したトレーニングを実行できるためですが、推論ではより高い計算コストがかかります。その過程で発生したもの。

対照的に、敵対的生成ネットワーク (GAN) では、画像の生成に 1 回の順方向パスのみが必要なため、本質的に効率が高くなります。

GAN モデルは生成モデリングの「前時代」を支配していましたが、トレーニング プロセスの不安定性のため、GAN を拡張するにはネットワーク構造とトレーニングの考慮事項を慎重に調整する必要があります。単一または複数のオブジェクト カテゴリのモデリングには優れていますが、(オープンワールド オブジェクトの生成は言うまでもなく) 複雑なデータセットへのスケーリングは依然として困難です。

したがって、現在、非常に大規模なモデル、データ、およびコンピューティング リソースは、主に拡散モデルと自己回帰モデルに焦点を当てています。

この研究では、研究者は主に次の質問に取り組みます:

GAN は拡張を継続でき、これらのリソースから潜在的に恩恵を受けることができますか?それともGANはすでに限界に達しているのでしょうか? GAN のさらなる拡大を妨げるものは何でしょうか?これらの障害を克服できるでしょうか?

安定したトレーニング GAN

研究者たちは、最初に StyleGAN2 を使って実験を行い、単にバックボーン ネットワークを拡張するだけではトレーニングが不安定になることを観察しました。モデルの能力を向上させながらトレーニングを安定させるための方法が提案されています。

まず、フィルターのバンクを保持し、特定のサンプルの線形結合を取得することで、ジェネレーターの容量を効果的に拡張します。

拡散モデルのコンテキストで一般的に使用されるいくつかの手法を適応させ、セルフ アテンション メカニズム (画像のみ) やクロス アテンションの組み込みなど、同様のパフォーマンス向上を GAN にもたらすことができることを確認しました。 (画像とテキスト) を畳み込み層と組み合わせることでパフォーマンスが向上します。

さらに、研究者らはマルチスケール トレーニングを再導入し、画像とテキストの位置合わせを改善し、出力に低周波の詳細を生成できる新しいスキームを発見しました。

マルチスケール トレーニングにより、GAN ベースのジェネレーターは低解像度ブロックのパラメーターをより効率的に使用できるようになり、画像とテキストの位置合わせと画質が向上します。 ############ビルダー#########

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

GigaGAN のジェネレーターは、テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、およびマルチスケール合成ネットワークで構成されます。ネットワーク)、安定した注意とサポートによって補完されます。適応的なカーネル選択。

テキスト エンコーディング ブランチでは、事前トレーニングされた CLIP モデルと学習されたアテンション レイヤー T を最初に使用してテキスト埋め込みが抽出され、次に埋め込みプロセスがスタイル マッピング ネットワークに渡されます。 M、StyleGAN と同様のスタイル ベクトルを生成します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

##合成ネットワークは、スタイル エンコーディングを変調として使用し、テキストの埋め込みをアテンションとして使用します。画像ピラミッドを作成し、これに基づいて、入力テキスト条件に基づいて畳み込みカーネルの適応選択を実現するサンプル適応カーネル選択アルゴリズムを導入します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#識別子

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

ジェネレーターと同様に、GigaGAN のディスクリミネーターは 2 つのブランチで構成されており、それぞれ画像とテキストの条件を処理するために使用されます。

テキスト ブランチは、ジェネレーターのテキスト ブランチと同様の処理を行います。画像ブランチは、画像ピラミッドを入力として受け取り、画像スケールごとに独立した予測を行います。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

# 高速収束を促進するために、複数の追加の損失関数が式に導入されています。

実験結果

大規模なテキスト画像合成タスクの体系的かつ制御された評価は、ほとんどの既存モデルが公開されていないため、たとえトレーニングが行われていても利用可能であるため、困難です。コードが利用可能であっても、新しいモデルを最初からトレーニングするコストは法外に高くなります。

研究者らは、トレーニング データ セット、数値に大きな違いがあることを認識しながら、実験で Imagen、潜在拡散モデル (LDM)、安定拡散、および Parti と比較することを選択しました。反復回数、バッチ サイズ、モデル サイズなど、かなりの違いがあります。

定量的な評価指標としては、主に出力分布の信頼性を測定するために Frechet Inception Distance (FID) が使用され、画像とテキストの位置合わせを評価するために CLIP スコアが使用されます。

#この文書では 5 つの異なる実験が行われました:

#1. 各技術コンポーネントを段階的に組み込むことによって、提案された方法の有効性を実証します。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

2. テキスト画像合成の結果は、GigaGAN が安定拡散 (SD-v1.5) FID と同等のパフォーマンスを発揮することを示しています。拡散モデルや自己回帰モデルよりも数百倍速く結果を生成しながら、

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#3. GigaGAN と蒸留の比較を比較します。ベースの拡散モデルは、GigaGAN が蒸留ベースの拡散モデルよりも高速に高品質の画像を合成できることを示しています;

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

##4.条件付きおよび無条件の超解像度タスクにおける他のアップサンプラーに対する GigaGAN のアップサンプラーの利点;

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

5. 結果は、その大きな効果を示しています。スケール GAN は依然として GAN の連続的かつ分解された潜在空間操作を享受しており、新しい画像編集モードを可能にします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

パラメータを調整した後、研究者は LAION2B-en などの大規模なデータセットで安定性と信頼性を達成しました。拡張された 10 億パラメータ GAN (GigaGAN)。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

そして、この方法は多段階アプローチを採用しており、最初に 64×64 で生成し、次に 512 × にアップサンプリングします。 512 では、どちらのネットワークもモジュール式であり、プラグ アンド プレイ方式で使用できるほど強力です。

結果は、トレーニング中に拡散モデルの画像が表示されることはありませんが、テキスト条件に基づく GAN アップサンプリング ネットワークが、基本的な拡散モデル (DALL-E など) の効率的で高品質なアップサンプラーとして使用できることを示しています。 2)。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

これらの結果を組み合わせると、GigaGAN は以前の GAN モデルをはるかに超え、StyleGAN2 の 36 倍、StyleGAN の 6 倍になります。 XL と XMC-GAN。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

#GiGAN の 10 億パラメータは、Imagen (3B) など、最近リリースされた最大の合成モデルよりもまだ少ないですが、 DALL-E 2 (5.5B) および Parti (20B) ですが、モデル サイズに関する質量飽和はまだ観察されていません。

#GigaGAN は、COCO2014 データセットで 9.09 のゼロショット FID を達成しました。これは、DALL-E 2、Parti-750M、および安定拡散の FID よりも低いです

アプリケーションシナリオ

プロンプト補間

GigaGAN はプロンプト間をスムーズに補間できます。下図の四隅は同じ Latent コードで形成されています生成されますが、テキスト プロンプトが異なります。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

解きほぐされたプロンプトミキシング

GigaGAN 予約済み 分離された潜在空間により結合が可能あるサンプルの粗いスタイルと別のサンプルの細かいスタイルを組み合わせたり、GigaGAN はテキストヒントを通じてスタイルを直接制御したりできます。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

粗いスタイルから細かいスタイルへの切り替え

GAN ベースのモデルアーキテクチャは独立した潜在空間を保存し、あるサンプルの粗いスタイルを別のサンプルの細かいスタイルと混合できるようにします。

初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。

参考:

https://mingukkang.github.io/GigaGAN/

以上が初の超大型GANモデル!生成速度は Diffusion よりも 20 倍以上速く、画像は 0.13 秒で生成され、最大 1,600 万ピクセルをサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境