ホームページ > 記事 > テクノロジー周辺機器 > Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始
最近、北京大学、スタンフォード大学、および人気のピカ研究所は、大規模モデルのヴィンセント グラフの機能を新たなレベルに引き上げた研究を共同で発表しました。
論文アドレス: https://arxiv.org/pdf/2401.11708.pdf
コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster
論文の著者は、マルチモーダル大規模言語モデル ( MLLM)、テキストから画像への生成/編集フレームワークを改善します。
言い換えれば、この方法は、複数の属性、関係、オブジェクトを含む複雑なテキスト プロンプトを処理する際のテキスト生成モデルのパフォーマンスを向上させることを目的としています。
早速、写真をご紹介します。
オレンジ色の緑のツインテールの女の子ドレスはソファに座っていますが、左側の大きな窓の下には散らかった机があり、ソファの右上には生き生きとした水族館があり、リアルなスタイルです。
オレンジ色のドレスを着た女の子ツインテールの彼女がソファに座っていて、大きな窓の隣には乱雑な机があり、右上にはにぎやかな水族館があり、部屋風のリアルさがあります。
# 複雑な関係を持つ複数のオブジェクトを前にして、画面全体の構造とモデルによって与えられる人物とオブジェクトの関係は非常に合理的で、見る人の目を輝かせます。 。
そして、同じプロンプトについて、現在の最先端の SDXL と DALL·E 3 のパフォーマンスを見てみましょう:
複数のプロパティを複数のオブジェクトにバインドするときの新しいフレームワークのパフォーマンスを見てみましょう:
左から右へ、白いシャツを着た金髪のポニーテールのヨーロッパの女の子、鳥のプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、スーツを着た黒い短髪のアジア人の若者が楽しそうにキャンパスを歩いています.
左から右へ、白いシャツを着て金髪のポニーテールをしたヨーロッパの女の子、鳥がプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、短い黒髪のスーツを着たアジア人の女の子、若者たちがキャンパスを楽しそうに歩いています。
研究者らは、複雑な画像生成プロセスを複数のサブ領域に分解するグローバル プランナーとして MLLM を使用し、このフレームワークを RPG (Recaption、Plan and Generate) と名付けました。ビルドタスク。
この論文では、地域的な組み合わせの生成を実現するための補完的な地域拡散を提案しており、テキストガイドによる画像の生成と編集をクローズドな RPG フレームワークに統合しています。 -loop 方式により汎化能力が向上します。
実験の結果、この記事で提案した RPG フレームワークは、特にマルチ環境において、DALL·E 3 や SDXL などの現在の最先端のテキスト画像拡散モデルよりも優れていることがわかりました。 -category オブジェクトの合成とテキスト画像のセマンティクス 配置の側面。
RPG フレームワークは、さまざまな MLLM アーキテクチャ (MiniGPT-4 など) および拡散バックボーン ネットワーク (ControlNet など) と広く互換性があることは注目に値します。
#RPG#現在のヴィンセント グラフ モデルには、主に 2 つの問題があります。 1. レイアウト ベースまたは注意ベースの方法では、大まかな空間ガイドしか提供できず、重複するオブジェクトを処理する; 2. フィードバック ベースの方法では、高品質のフィードバック データを収集する必要があり、追加のトレーニング コストが発生します。
これらの問題を解決するために、研究者は、次の図に示すように、RPG の 3 つの核となる戦略を提案しました。 ##複数のエンティティと関係を含む複雑なテキスト プロンプトが与えられた場合、最初に MLLM を使用してそれを基本プロンプトと高度に説明的なサブプロンプトに分解し、その後、マルチモーダル モデルの CoT プランニングを使用してイメージを分割します。空間を相補的なサブ領域に分割し、最後に相補的領域拡散を導入して、各サブ領域の画像を独立して生成し、各サンプリング ステップで集約します。
テキスト キューを高度に説明的なキューに変換し、情報によって強化されたキューの理解と拡散モデルでの意味論的な整合性を提供します。
MLLM を使用してユーザー プロンプト y 内のキー フレーズを識別し、サブ項目を取得します。
# #Use LLM を使用して、テキスト プロンプトをさまざまなサブプロンプトに分解し、より詳細に再説明します。
#このようにして、より高密度で粒度の高いプロンプトを生成できます各サブキューの詳細を確認して、生成された画像の忠実度を効果的に高め、キューと画像間の意味論的な違いを減らします。
画像空間を相補的なサブ領域に分割し、中断中に異なるサブプロンプトを割り当てます。ビルド タスクを複数の単純なサブタスクに分割します。
具体的には、画像空間 H × W がいくつかの相補的な領域に分割され、各エンハンサー プロンプトが特定の領域 R に割り当てられます。
MLLM の強力な思考連鎖推論機能を使用して、効果的な地域分割を実行します。取得した中間結果を分析することで、その後の画像合成のための詳細な原理と正確な指示を生成できます。
各長方形のサブエリアでは、サブキューによってガイドされるコンテンツが独立して生成され、その後サイズ変更されて接続されます。これらのサブ領域を空間的にマージします。
#この方法は、重なり合うオブジェクトの処理が難しい大規模なモデルの問題を効果的に解決します。さらに、この論文はこのフレームワークを編集タスクに適応するように拡張し、輪郭ベースの領域拡散を使用して、変更が必要な一貫性のない領域を正確に操作します。#テキストガイドによる画像編集
上の画像に示すように。再話段階では、RPG は MLLM を字幕として使用してソース画像を再話し、その強力な推論機能を使用して画像とターゲット キューの間の詳細な意味論的な違いを特定し、入力画像がターゲット キューとどのように一致するかを直接分析します。
MLLM (GPT-4、Gemini Pro など) を使用して、数値精度、プロパティ バインディング、オブジェクトの関係に関する入力とターゲットの違いを確認します。結果として得られるマルチモーダル理解フィードバックは、推論編集計画のために MLLM に配信されます。
# 上記の 3 つの側面における生成効果のパフォーマンスを見てみましょう。最初は属性バインディングで、SDXL、DALL·E 3、LMD を比較します。
3 つのテストすべてにおいて、プロンプトの説明を最も正確に反映しているのは RPG だけであることがわかります。
#次に数値の精度があり、表示順序は上記と同じです (SDXL、DALL·E 3、LMD、RPG):
##——ヴィンセントの大型モデルなのでカウントがかなり難しいとは思いませんでしたが、RPGでは簡単に相手を倒しました。
最後の項目は、復元プロンプトの複雑な関係です:
さらに、次のこともできます。また、拡散は階層形式に拡張され、特定のサブ領域をより小さなサブ領域に分割します。
下の図に示すように、領域セグメンテーションの階層を追加すると、RPG はテキストから画像への生成を大幅に改善できます。これにより、複雑な生成タスクを処理するための新しい視点が提供され、任意の構成の画像を生成できるようになります。
以上がVincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。