トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上-AI-php.cn

ホームページ

テクノロジー周辺機器

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

PHPz

May 13, 2023 am 08:46 AM

グーグルモデル

最近、Google は新しいテキスト画像生成 Muse モデルをリリースしました。これは、現在人気のある拡散モデルを使用せず、古典的な Transformer モデルを使用して、最も高度な画像生成を実現します。パフォーマンス: 比較拡散モデルまたは自己回帰モデルを使用すると、Muse モデルの効率も大幅に向上します。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

# 論文リンク: https://arxiv.org/pdf/2301.00704.pdf

プロジェクトリンク: https://muse-model.github.io/

#Muse は離散トークン空間でマスクされたモデリングタスクを使用しますトレーニング対象: 事前トレーニングされた大規模言語モデル (LLM) から抽出されたテキスト埋め込みが与えられた場合、Muse のトレーニングプロセスは、ランダムにマスクされた画像トークンを予測することです。

ピクセル空間拡散モデル (Imagen や DALL-E 2 など) と比較して、Muse は離散トークンを使用するため、必要なサンプリング反復が少なくなり、効率が向上します。大幅に向上しました。

自己回帰モデル (Parti など) と比較すると、Muse は並列デコードを使用するため、より効率的です。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

事前トレーニングされた LLM を使用すると、きめ細かい言語理解が可能になり、それが高忠実度の画像生成と、オブジェクトなどの視覚的概念の理解につながります。、空間関係、姿勢、濃度など。

実験結果では、パラメータが 900M のみの Muse モデルが、CC3M 上で新しい SOTA パフォーマンスを達成し、FID スコアは 6.06 でした。

Muse 3B パラメトリックモデルは、ゼロショット COCO 評価で 7.88 の FID を達成し、CLIP スコアは 0.32 でした。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

Muse は、モデルの微調整や反転を行わずに、いくつかの画像編集アプリケーション (修復 (インペイント)、拡張 (アウトペイント) など) を直接実装することもできます。マスクフリー編集。

Muse モデル

Muse モデルのフレームワークには複数のコンポーネントが含まれており、トレーニングパイプラインは T5-XXL の事前トレーニング済みテキストエンコーダー、ベースモデル、超解像度で構成されていますレートモデル。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

#1. 事前トレーニングされたテキストエンコーダー ##以前の研究で得られた結論と同様に、研究者らは、事前トレーニングされた大規模言語モデル (LLM) の使用が高品質画像の生成を向上させるのに有益であることを発見しました。

たとえば、言語モデル T5-XXL から抽出された埋め込みには、オブジェクト (名詞)、アクション (動詞)、視覚的属性 (形容詞)、および空間関係 (前置詞) に関する情報が含まれています。カーダビリティや構成などの他の属性に関する豊富な情報も含まれています。

そこで研究者らは、次の仮説を提案しました。Muse モデルは、LLM 埋め込み内のこれらの豊富な視覚的および意味論的な概念を、生成された画像にマッピングすることを学習します。

最近の研究では、LLM によって学習された概念表現と、視覚タスクでトレーニングされたモデルによって学習された概念表現が、大まかに「線形マッピング」できることが証明されました。

入力テキストタイトルが与えられると、それを凍結されたパラメータとともに T5-XXL エンコーダに渡すと、4096 次元の言語埋め込みベクトルが生成され、これが非表示のサイズ次元に線形投影されます。 Transformer モデル (ベースおよび超解像度)。

2. セマンティックトークン化に VQGAN を使用する

VQGAN モデルはエンコーダーとデコーダーで構成されます。量子化層は、学習されたコードブックからのトークンのシーケンスに入力画像をマッピングします。

次に、エンコーダーとデコーダーは完全に畳み込み層で構築され、さまざまな解像度の画像のエンコードをサポートします。

エンコーダには、入力の空間次元を削減するためにいくつかのダウンサンプリングブロックが含まれていますが、デコーダには、潜在データを元の画像サイズにマップし直すための対応する数のアップサンプリングブロックがあります。

研究者らは 2 つの VQGAN モデルをトレーニングしました。1 つはダウンサンプリングレート f=16 で、モデルは 256×256 ピクセルの画像上で基本モデルのラベルを取得し、 16×16マークの空間サイズ、もう1つはダウンサンプリング率f=8であり、超解像モデルのトークンは512×512画像上で取得され、対応する空間サイズは64×64である。

エンコード後に取得された離散トークンは、画像の高レベルのセマンティクスをキャプチャし、低レベルのノイズも除去できます。トークンの離散性に応じて、クロスエントロピー損失は次のようになります。次の段階でマスクされたトークンを予測します

#3. ベースモデル

##Muse モデルはマスクされた Transformer で、入力はマップされた T5 埋め込みと画像トークンです。

研究者は、すべてのテキスト埋め込みをマスク解除に設定し、ランダムにマスクアウトした後、さまざまな画像トークンの一部。特別な [MASK] タグを使用して元のトークンを置き換えます。

その後、画像トークンは必要な Transformer 入力または非表示サイズの画像入力に線形にマッピングされます。埋め込みと同時に 2D 位置の埋め込みを学習します

は、セルフアテンションブロック、クロスアテンションブロック、および MLP ブロックを使用した、いくつかのトランスフォーマー層を含む、元の Transformer アーキテクチャと同じです。特徴を抽出します。

出力層では、MLP を使用して、各マスクされた画像埋め込みを一連のロジット (VQGAN コードブックのサイズに対応) に変換し、グラウンドとのクロスエントロピーを使用します。ターゲット損失としての真実のトークン。

トレーニングフェーズでは、基本モデルのトレーニング目標は、各ステップですべての msked トークンを予測することですが、推論フェーズでは、マスク予測が反復的に実行されます。品質を大幅に向上させることができます。

4. 超解像度モデル

研究者らは、512 倍を直接予測できることを発見しました。 512 解像度の画像では、モデルは高レベルのセマンティクスではなく、低レベルの詳細に焦点を当てます。

モデルのカスケードを使用すると、この状況を改善できます。

最初に 1 つを使用して 16×16 の潜在マップを生成します ( 256×256 画像）、次に基本潜在マップを 64×64（512×512 画像に相当）にアップサンプリングする超解像度モデル。超解像モデルは、基本モデルのトレーニングが完了した後にトレーニングされます。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

前述したように、研究者は合計 2 つの VQGAN モデルをトレーニングしました。1 つは 16×16 の潜在解像度と 256×256 の空間解像度レートで、もう 1 つは、64×64 の潜在解像度と 512×512 の空間解像度です。

基本モデルは 16×16 の潜在マップに対応するトークンを出力するため、超解像度モジュールは低解像度の潜在マップを高解像度の潜在マップに「変換」することを学習します。マップを作成し、高解像度 VQGAN デコードを通じて最終的な高解像度画像を取得します。翻訳モデルも、基本モデルと同様の方法でテキストコンディショニングとクロスアテンションを使用してトレーニングされます。

5. デコーダの微調整

モデルの詳細を生成する能力をさらに向上させるために、研究者らは、エンコーダーの容量を変更せずに、より多くの残りのレイヤーとチャネルを追加することで、VQGAN デコーダーの容量を増やすことを選択しました。

次に、VQGAN エンコーダの重み、コードブック、トランスフォーマー (つまり、ベースモデルと超解像度モデル) を変更せずに、新しいデコーダを微調整します。このアプローチにより、他のモデルコンポーネントを再トレーニングする必要がなく、生成された画像の視覚的な品質が向上します (視覚的なトークンは固定されたままであるため)。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

ご覧のとおり、デコーダはより多くのより鮮明な詳細を再構築するために微調整されています。

#6. 変数マスキング率

研究者が使用するモデルは変数マスクでトレーニングされますCsoine スケジューリングに基づくレート: 各トレーニング例について、マスクレート r∈[0, 1] は、次のような密度関数を使用して切り捨てられたアークコス分布から抽出されます。マスクレートの期待値は 0.64 です。これは、マスクレートが高いほど好ましいことを意味し、予測問題がより困難になります。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

ランダムマスキングレートは、並列サンプリングスキームにとって重要であるだけでなく、分散されたすぐに使える編集機能も可能にします。

7. 分類器なしガイダンス (CFG)

研究者は分類器なしガイダンスを使用します(CFG) 画像生成の品質とテキストと画像の位置合わせを向上させます。

トレーニング中に、ランダムに選択されたサンプルの 10% からテキスト条件が削除され、注意メカニズムは画像トークン自体の自己注意に縮小されます。

推論段階では、マスクされたトークンごとに条件付きロジット lc と無条件ロジット lu が計算され、その後、量 t が、形成するためのガイドスケールとして無条件ロジットから削除されます。最終的なロジット lg:

直感的には、CFG は多様性を犠牲にして忠実度を犠牲にしますが、以前の方法とは異なり、Muse はサンプリングを使用します。このプロセスにより、ガイダンススケール t が直線的に増加します。多様性の損失を軽減し、少ないガイダンスまたはガイダンスなしで初期のトークンをより自由にサンプリングできるようにしますが、後のトークンに対する条件付きキューの影響も増加します。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

研究者らはまた、このメカニズムを利用して、無条件のロジット LU を否定的なプロンプトで条件付けされたロジットに置き換えることにより、肯定的なプロンプトに関連する特徴を備えた画像の生成を促進しました。

8. 推論中の反復並列デコード

モデル推論の時間効率を向上させるための重要な部分は、単一の順方向チャネルで複数の出力トークンを予測するために並列処理デコーディングを使用する場合、重要な前提の 1 つはマルコフ特性です。つまり、多くのトークンは他のトークンから条件付きで独立しています。

デコードはコサインスケジュールに従って実行され、固定比率で最も信頼度の高いマスクが予測用に選択され、残りのステップでトークンがマスク解除されるように設定されます。マスクされたトークンが適切に削減されます。

上記のプロセスによれば、基本モデルでは 256 個のトークンの推論を達成するために 24 の復号ステップのみを使用できますが、超解像モデルでは 8 つの復号ステップを使用できます。 4096 トークンの推論。これに対し、自己回帰モデルでは 256 または 4096 ステップ、拡散モデルでは数百ステップです。

漸進的蒸留やより優れた ODE ソルバーなどの最近の研究により、拡散モデルのサンプリングステップが大幅に削減されましたが、これらの方法は大規模なテキストから画像への生成では広く検証されていません。

実験結果

研究者らは、T5-XXL に基づいて、さまざまなパラメーター量 (600M から 3B) で一連の基本的なトランスモデルをトレーニングしました。

#生成された画像の品質

#実験では、さまざまな属性を持つテキストプロンプトを処理する Muse モデルの機能をテストしました。カーディナリティの基本的な理解は、非特異オブジェクトの場合、Muse は同じオブジェクトピクセルを複数回生成しないが、イメージ全体をより現実的にするためにコンテキストの変更を追加するということです。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

たとえば、象の大きさや向き、ワインボトルの包装紙の色、テニスボールの回転など。

定量的比較

研究者らは、CC3M および COCO データセット、メトリクスについて、他の研究手法との実験比較を実施しました。これには、サンプルの品質と多様性を測定する Frechet Inception Distance (FID) と、画像とテキストの配置を測定する CLIP スコアが含まれます。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

実験結果は、632M Muse モデルが CC3M で SOTA 結果を達成し、FID スコアを改善し、最高の結果を達成したことを証明しました。得点。

トランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上

MS-COCO データセットでは、3B モデルは 7.88 の FID スコアを達成しました。これは、Parti-3B モデルよりわずかに優れています。同様のパラメータ量で、8.1 ポイントを達成しました。

以上がトランスフォーマーが再びディフュージョンを破る！ Google、新世代のテキスト画像生成モデル Muse をリリース：生成効率が 10 倍に向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。