ホームページ  >  記事  >  テクノロジー周辺機器  >  マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

WBOY
WBOY転載
2024-01-15 16:33:05979ブラウズ

Google が設計した新しい画像生成モデルが登場しました。これは、図 1 の猫を図 2 のスタイルで描画し、その上に帽子をかぶせることができます。このモデルは、命令微調整テクノロジーを使用して、テキスト命令と複数の参照画像に基づいて新しい画像を正確に生成します。効果は非常に優れており、PS マスターが個人的に絵の作成を支援するのに匹敵します。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

私たちは、大規模言語モデル (LLM) を使用する際の命令の微調整の重要性を認識しています。指示を適切に微調整することで、LLM は詩の作曲、コードの作成、スクリプトの作成、科学研究の支援、さらには投資管理の実行など、さまざまなタスクを実行できます。

大規模モデルがマルチモーダル時代に入った今、命令の微調整は依然として効果的でしょうか?たとえば、マルチモーダル命令を通じて画像生成の制御を微調整できますか?言語生成とは異なり、画像生成には最初からマルチモダリティが含まれます。モデルがマルチモダリティの複雑さを効果的に把握できるようにすることはできるでしょうか?

この問題を解決するために、Google DeepMind と Google Research は、画像生成を実現するマルチモーダルな命令方法を提案しました。この手法では、さまざまなモダリティからの情報を織り交ぜて画像生成の条件を表現します(図 1 の左パネルに示す例)。

マルチモーダル命令により、言語命令を強化できます。たとえば、ユーザーは参照イメージのスタイルを指定して、イメージをレンダリングするモデルを生成できます。この直感的な対話型インターフェイスにより、画像生成タスクのマルチモーダル条件を効率的に設定できます。

このアイデアに基づいて、チームはマルチモーダルな命令イメージ生成モデル、Instruct-Imagen を作成しました。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

論文アドレス: https://arxiv.org/abs/2401.01952

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

このモデルは 2 つの段階トレーニング方法: まず、マルチモーダルな命令を処理するモデルの能力を強化し、次にマルチモーダルなユーザーの意図に忠実に従います。

最初のフェーズで、チームは追加のマルチモーダル入力を処理するタスクを課せられた事前トレーニング済みのテキストから画像へのモデルを採用し、その後、マルチモーダル ステータスの指示に正確に応答するように微調整しました。具体的には、彼らが取得した事前トレーニング済みモデルは拡散モデルであり、ネットワーク スケール (画像、テキスト) コーパスから取得した同様の (画像、テキスト) コンテキストで強化されました。

第 2 フェーズでは、チームはさまざまな画像生成タスクに基づいてモデルを微調整し、それぞれのタスクを対応するマルチモーダル命令と組み合わせました。これらの命令には、それぞれのタスク要素の鍵が含まれていました。上記の手順を経て、結果として得られるモデル Instruct-Imagen は、複数のモダリティ (スケッチとテキスト命令で記述されたビジュアル スタイルなど) の融合入力を非常に巧みに処理できるため、コンテキストに正確に適合し、十分に明るい画像を生成できます。

図 1 に示すように、Instruct-Imagen は非常に優れたパフォーマンスを発揮し、複雑なマルチモーダル命令を理解し、人間の意図に忠実に従う画像を生成し、これまで見たことのない命令の組み合わせも処理できます。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

人間のフィードバックによると、多くの場合、Instruct-Imagen は、対応するタスクでタスク固有のモデルのパフォーマンスに匹敵するだけでなく、それを上回ることさえあります。それだけでなく、Instruct-Imagen は強力な一般化機能も示しており、目に見えないより複雑な画像生成タスクにも使用できます。

マルチモーダル生成命令

チームが使用する事前トレーニング済みモデルは拡散モデルであり、ユーザーは入力条件を設定できます。オリジナルの紙。

マルチモーダル命令については、汎用性と一般化機能を確保するために、チームは統一されたマルチモーダル命令形式を提案しました。この形式では、言語の役割は、タスクの目標を明確に記述することです。モーダル条件 参考情報として提供します。

この新しく提案されたコマンド形式には、2 つの重要なコンポーネントが含まれています: (1) ペイロード テキスト コマンド。その役割は、ミッションの目標を詳細に記述し、[ref#?] などの参照情報の識別を与えることです。 (2) ペアになったマルチモーダル コンテキスト (アイデンティティ テキスト、画像)。次に、モデルは共有命令理解モデルを使用して、テキスト命令とマルチモーダル コンテキストを処理します。コンテキストの特定のモダリティはここでは制限されません。

図 2 は、この形式がさまざまな以前の世代のタスクをどのように表現できるかを 3 つの例を通して示しています。これは、この形式が以前のイメージ生成タスクと互換性があることを示しています。さらに重要なのは、言語が柔軟であるため、モダリティやタスクを特別に設計しなくても、マルチモーダル命令を新しいタスク用に拡張できることです。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

Instruct-Imagen

Instruct-Imagen はマルチモーダル命令に基づいています。これに基づいて、チームは、入力されたマルチモーダル命令条件を完全に採用できるように、事前トレーニングされたテキストから画像への拡散モデル、つまりカスケード拡散モデルに基づいてモデル アーキテクチャを設計しました。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

具体的には、彼らは Imagen のバリアント バージョンを使用しました。論文「深い言語理解を備えたフォトリアリスティックなテキストから画像への拡散モデル」を参照してください。また、事前トレーニングされたデータに基づいています。内部データソースについて。その完全なモデルには 2 つのサブコンポーネントが含まれています: (1) テキストから画像へのコンポーネント、そのタスクはテキスト プロンプトのみを使用して 128 × 128 解像度の画像を生成することです、(2) テキスト条件付き超解像度モデル、128 解像度に変換できます。画像を解像度 1024 にアップグレードします。

マルチモーダル命令のエンコーディングについては、Instruct-Imagen エンコーディングのマルチモーダル命令のデータ フローを示す図 3 (右) を参照してください。

2 段階メソッドによる Instruct-Imagen のトレーニング

Instruct-Imagen のトレーニング プロセスは 2 段階に分かれています。

最初の段階は、取得強化されたテキストから画像へのトレーニングです。これは、強化された取得された近傍 (画像、テキスト) ペアを使用して、テキストから画像への生成のトレーニングを継続します。

第 2 段階では、第 1 段階の出力モデルを微調整します。この段階では、さまざまな画像生成タスクを組み合わせて使用​​し、それぞれが対応するマルチモーダル命令とペアになっています。具体的には、チームは 5 つのタスク カテゴリにわたって 11 枚の画像を使用してデータセットを生成しました (表 1 を参照)。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

どちらのトレーニング段階でも、モデルはエンドツーエンドで最適化されます。

実験

チームは、新しく提案された方法とモデルの実験的評価を実施し、Instruct-Imagen の設計と故障モードの詳細な分析を実施しました。 。

実験設定

チームは、ドメイン内タスク評価とゼロショット タスク評価という 2 つの設定でモデルを評価しました。後者の設定の方が効率的でした。前者の設定はより困難です。

主な結果

図 4 は、Instruct-Imagen とベースライン手法および以前の手法を比較したものです。フィールド評価とゼロサンプル評価。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

これは、マルチモーダル命令を使用したトレーニングにより、データが豊富なタスク (例:写真のような画像を生成します)。マルチモーダルな指導トレーニングがなければ、マルチタスクのベンチマークでは画質やテキストの配置が低下する傾向があります。

たとえば、図 5 のコンテキスト内スタイル化の例では、マルチタスク ベンチマークではスタイルとオブジェクトを区別することが難しいため、生成された結果ではオブジェクトが再現されます。同様の理由で、スタイル転送タスクのパフォーマンスも低下します。これらの観察は、命令の微調整の価値を強調しています。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

特定のタスクに依存する現在のメソッドやトレーニングとは異なり、Instruct-Imagen は、さまざまなタスクの目標を組み合わせてコンテキスト内で推論を実行する命令を活用することで効率的に管理できます。 (微調整は必要ありません。例ごとに 18.2 秒)。

図 6 に示すように、Instruct-Imagen は、命令の追従性と出力品質の点で常に他のモデルよりも優れています。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

それだけでなく、マルチモーダル コンテキストに複数の参照がある場合、マルチタスク ベースライン モデルはテキスト命令を参照に対応させることができず、その結果、一部のマルチモーダルが発生します。条件は無視されます。これらの結果は、新しく提案されたモデルの有効性をさらに実証しています。

モデル分析とアブレーションの研究

チームはモデルの限界と故障モードを分析しました。

たとえば、チームは、微調整された Instruct-Imagen が画像を編集できることを発見しました。表 2 に示すように、以前の SDXL 修復、MagicBrush データセット上で微調整された Imagen、および微調整された Instruct-Imagen を比較すると、微調整された Instruct-Imagen が以前の SDXL 修復よりも大幅に優れていることがわかります。マスクベースの画像編集用に特別に設計されたデザイン モデル。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

ただし、図 7 に示すように、微調整された Instruct-Imagen は編集画像、特に超解像度ステップ後の高解像度出力にアーティファクトを生成します。研究者らは、これはモデルがコンテキストからピクセルを直接正確にコピーする方法をこれまで学習していないためだと述べている。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

チームはまた、検索強化トレーニングが汎化能力の向上に役立つことも発見しました。その結果を表 3 に示します。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

Instruct-Imagen の障害モードに関して、研究者らは、マルチモーダル命令がより複雑な場合 (少なくとも 3 つのマルチモーダル条件)、Instruct-Imagen が生成が困難 以下の手順の結果。図 8 に 2 つの例を示します。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

#以下は、トレーニング中には見ら​​れなかった複雑なタスクに関する結果の一部を示しています。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

チームは、設計コンポーネントの重要性を証明するためにアブレーション研究も実施しました。

ただし、セキュリティ上の懸念により、Google はこの研究のコードと API をまだリリースしていません。

マルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

#詳細については、原著論文を参照してください。

以上がマルチモーダル コマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。