Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始
最近、北京大学、スタンフォード大学、および人気のピカ研究所は、大規模モデルのヴィンセント グラフの機能を新たなレベルに引き上げた研究を共同で発表しました。
論文アドレス: https://arxiv.org/pdf/2401.11708.pdf
コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster
論文の著者は、マルチモーダル大規模言語モデル ( MLLM)、テキストから画像への生成/編集フレームワークを改善します。
言い換えれば、この方法は、複数の属性、関係、オブジェクトを含む複雑なテキスト プロンプトを処理する際のテキスト生成モデルのパフォーマンスを向上させることを目的としています。
早速、写真をご紹介します。
オレンジ色の緑のツインテールの女の子ドレスはソファに座っていますが、左側の大きな窓の下には散らかった机があり、ソファの右上には生き生きとした水族館があり、リアルなスタイルです。
オレンジ色のドレスを着た女の子ツインテールの彼女がソファに座っていて、大きな窓の隣には乱雑な机があり、右上にはにぎやかな水族館があり、部屋風のリアルさがあります。
# 複雑な関係を持つ複数のオブジェクトを前にして、画面全体の構造とモデルによって与えられる人物とオブジェクトの関係は非常に合理的で、見る人の目を輝かせます。 。
そして、同じプロンプトについて、現在の最先端の SDXL と DALL·E 3 のパフォーマンスを見てみましょう:
複数のプロパティを複数のオブジェクトにバインドするときの新しいフレームワークのパフォーマンスを見てみましょう:
左から右へ、白いシャツを着た金髪のポニーテールのヨーロッパの女の子、鳥のプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、スーツを着た黒い短髪のアジア人の若者が楽しそうにキャンパスを歩いています.
左から右へ、白いシャツを着て金髪のポニーテールをしたヨーロッパの女の子、鳥がプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、短い黒髪のスーツを着たアジア人の女の子、若者たちがキャンパスを楽しそうに歩いています。
研究者らは、複雑な画像生成プロセスを複数のサブ領域に分解するグローバル プランナーとして MLLM を使用し、このフレームワークを RPG (Recaption、Plan and Generate) と名付けました。ビルドタスク。
この論文では、地域的な組み合わせの生成を実現するための補完的な地域拡散を提案しており、テキストガイドによる画像の生成と編集をクローズドな RPG フレームワークに統合しています。 -loop 方式により汎化能力が向上します。
実験の結果、この記事で提案した RPG フレームワークは、特にマルチ環境において、DALL·E 3 や SDXL などの現在の最先端のテキスト画像拡散モデルよりも優れていることがわかりました。 -category オブジェクトの合成とテキスト画像のセマンティクス 配置の側面。
RPG フレームワークは、さまざまな MLLM アーキテクチャ (MiniGPT-4 など) および拡散バックボーン ネットワーク (ControlNet など) と広く互換性があることは注目に値します。
#RPG#現在のヴィンセント グラフ モデルには、主に 2 つの問題があります。 1. レイアウト ベースまたは注意ベースの方法では、大まかな空間ガイドしか提供できず、重複するオブジェクトを処理する; 2. フィードバック ベースの方法では、高品質のフィードバック データを収集する必要があり、追加のトレーニング コストが発生します。
これらの問題を解決するために、研究者は、次の図に示すように、RPG の 3 つの核となる戦略を提案しました。 ##複数のエンティティと関係を含む複雑なテキスト プロンプトが与えられた場合、最初に MLLM を使用してそれを基本プロンプトと高度に説明的なサブプロンプトに分解し、その後、マルチモーダル モデルの CoT プランニングを使用してイメージを分割します。空間を相補的なサブ領域に分割し、最後に相補的領域拡散を導入して、各サブ領域の画像を独立して生成し、各サンプリング ステップで集約します。
マルチモーダル再チューニング
テキスト キューを高度に説明的なキューに変換し、情報によって強化されたキューの理解と拡散モデルでの意味論的な整合性を提供します。
MLLM を使用してユーザー プロンプト y 内のキー フレーズを識別し、サブ項目を取得します。
# #Use LLM を使用して、テキスト プロンプトをさまざまなサブプロンプトに分解し、より詳細に再説明します。
#このようにして、より高密度で粒度の高いプロンプトを生成できます各サブキューの詳細を確認して、生成された画像の忠実度を効果的に高め、キューと画像間の意味論的な違いを減らします。
思考連鎖計画
画像空間を相補的なサブ領域に分割し、中断中に異なるサブプロンプトを割り当てます。ビルド タスクを複数の単純なサブタスクに分割します。
具体的には、画像空間 H × W がいくつかの相補的な領域に分割され、各エンハンサー プロンプトが特定の領域 R に割り当てられます。
MLLM の強力な思考連鎖推論機能を使用して、効果的な地域分割を実行します。取得した中間結果を分析することで、その後の画像合成のための詳細な原理と正確な指示を生成できます。
補足エリア拡散
各長方形のサブエリアでは、サブキューによってガイドされるコンテンツが独立して生成され、その後サイズ変更されて接続されます。これらのサブ領域を空間的にマージします。
#テキストガイドによる画像編集
上の画像に示すように。再話段階では、RPG は MLLM を字幕として使用してソース画像を再話し、その強力な推論機能を使用して画像とターゲット キューの間の詳細な意味論的な違いを特定し、入力画像がターゲット キューとどのように一致するかを直接分析します。
MLLM (GPT-4、Gemini Pro など) を使用して、数値精度、プロパティ バインディング、オブジェクトの関係に関する入力とターゲットの違いを確認します。結果として得られるマルチモーダル理解フィードバックは、推論編集計画のために MLLM に配信されます。
# 上記の 3 つの側面における生成効果のパフォーマンスを見てみましょう。最初は属性バインディングで、SDXL、DALL·E 3、LMD を比較します。
3 つのテストすべてにおいて、プロンプトの説明を最も正確に反映しているのは RPG だけであることがわかります。
#次に数値の精度があり、表示順序は上記と同じです (SDXL、DALL·E 3、LMD、RPG):
##——ヴィンセントの大型モデルなのでカウントがかなり難しいとは思いませんでしたが、RPGでは簡単に相手を倒しました。
最後の項目は、復元プロンプトの複雑な関係です:
さらに、次のこともできます。また、拡散は階層形式に拡張され、特定のサブ領域をより小さなサブ領域に分割します。
下の図に示すように、領域セグメンテーションの階層を追加すると、RPG はテキストから画像への生成を大幅に改善できます。これにより、複雑な生成タスクを処理するための新しい視点が提供され、任意の構成の画像を生成できるようになります。
以上がVincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい
