検索
ホームページテクノロジー周辺機器AIVincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

最近、北京大学、スタンフォード大学、および人気のピカ研究所は、大規模モデルのヴィンセント グラフの機能を新たなレベルに引き上げた研究を共同で発表しました。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

論文アドレス: https://arxiv.org/pdf/2401.11708.pdf

コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster

論文の著者は、マルチモーダル大規模言語モデル ( MLLM)、テキストから画像への生成/編集フレームワークを改善します。

言い換えれば、この方法は、複数の属性、関係、オブジェクトを含む複雑なテキスト プロンプトを処理する際のテキスト生成モデルのパフォーマンスを向上させることを目的としています。

早速、写真をご紹介します。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

オレンジ色の緑のツインテールの女の子ドレスはソファに座っていますが、左側の大きな窓の下には散らかった机があり、ソファの右上には生き生きとした水族館があり、リアルなスタイルです。

オレンジ色のドレスを着た女の子ツインテールの彼女がソファに座っていて、大きな窓の隣には乱雑な机があり、右上にはにぎやかな水族館があり、部屋風のリアルさがあります。

# 複雑な関係を持つ複数のオブジェクトを前にして、画面全体の構造とモデルによって与えられる人物とオブジェクトの関係は非常に合理的で、見る人の目を輝かせます。 。

そして、同じプロンプトについて、現在の最先端の SDXL と DALL·E 3 のパフォーマンスを見てみましょう:

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

複数のプロパティを複数のオブジェクトにバインドするときの新しいフレームワークのパフォーマンスを見てみましょう:

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

左から右へ、白いシャツを着た金髪のポニーテールのヨーロッパの女の子、鳥のプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、スーツを着た黒い短髪のアジア人の若者が楽しそうにキャンパスを歩いています.

左から右へ、白いシャツを着て金髪のポニーテールをしたヨーロッパの女の子、鳥がプリントされた青いシャツを着た茶色の巻き毛のアフリカの女の子、短い黒髪のスーツを着たアジア人の女の子、若者たちがキャンパスを楽しそうに歩いています。

研究者らは、複雑な画像生成プロセスを複数のサブ領域に分解するグローバル プランナーとして MLLM を使用し、このフレームワークを RPG (Recaption、Plan and Generate) と名付けました。ビルドタスク。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

この論文では、地域的な組み合わせの生成を実現するための補完的な地域拡散を提案しており、テキストガイドによる画像の生成と編集をクローズドな RPG フレームワークに統合しています。 -loop 方式により汎化能力が向上します。

実験の結果、この記事で提案した RPG フレームワークは、特にマルチ環境において、DALL·E 3 や SDXL などの現在の最先端のテキスト画像拡散モデルよりも優れていることがわかりました。 -category オブジェクトの合成とテキスト画像のセマンティクス 配置の側面。

RPG フレームワークは、さまざまな MLLM アーキテクチャ (MiniGPT-4 など) および拡散バックボーン ネットワーク (ControlNet など) と広く互換性があることは注目に値します。

#RPG

#現在のヴィンセント グラフ モデルには、主に 2 つの問題があります。 1. レイアウト ベースまたは注意ベースの方法では、大まかな空間ガイドしか提供できず、重複するオブジェクトを処理する; 2. フィードバック ベースの方法では、高品質のフィードバック データを収集する必要があり、追加のトレーニング コストが発生します。

これらの問題を解決するために、研究者は、次の図に示すように、RPG の 3 つの核となる戦略を提案しました。 ##複数のエンティティと関係を含む複雑なテキスト プロンプトが与えられた場合、最初に MLLM を使用してそれを基本プロンプトと高度に説明的なサブプロンプトに分解し、その後、マルチモーダル モデルの CoT プランニングを使用してイメージを分割します。空間を相補的なサブ領域に分割し、最後に相補的領域拡散を導入して、各サブ領域の画像を独立して生成し、各サンプリング ステップで集約します。

マルチモーダル再チューニング

テキスト キューを高度に説明的なキューに変換し、情報によって強化されたキューの理解と拡散モデルでの意味論的な整合性を提供します。

MLLM を使用してユーザー プロンプト y 内のキー フレーズを識別し、サブ項目を取得します。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

# #Use LLM を使用して、テキスト プロンプトをさまざまなサブプロンプトに分解し、より詳細に再説明します。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

#このようにして、より高密度で粒度の高いプロンプトを生成できます各サブキューの詳細を確認して、生成された画像の忠実度を効果的に高め、キューと画像間の意味論的な違いを減らします。

思考連鎖計画

画像空間を相補的なサブ領域に分割し、中断中に異なるサブプロンプトを割り当てます。ビルド タスクを複数の単純なサブタスクに分割します。

具体的には、画像空間 H × W がいくつかの相補的な領域に分割され、各エンハンサー プロンプトが特定の領域 R に割り当てられます。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

MLLM の強力な思考連鎖推論機能を使用して、効果的な地域分割を実行します。取得した中間結果を分析することで、その後の画像合成のための詳細な原​​理と正確な指示を生成できます。

補足エリア拡散

各長方形のサブエリアでは、サブキューによってガイドされるコンテンツが独立して生成され、その後サイズ変更されて接続されます。これらのサブ領域を空間的にマージします。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

#この方法は、重なり合うオブジェクトの処理が難しい大規模なモデルの問題を効果的に解決します。さらに、この論文はこのフレームワークを編集タスクに適応するように拡張し、輪郭ベースの領域拡散を使用して、変更が必要な一貫性のない領域を正確に操作します。

#テキストガイドによる画像編集

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始上の画像に示すように。再話段階では、RPG は MLLM を字幕として使用してソース画像を再話し、その強力な推論機能を使用して画像とターゲット キューの間の詳細な意味論的な違いを特定し、入力画像がターゲット キューとどのように一致するかを直接分析します。

MLLM (GPT-4、Gemini Pro など) を使用して、数値精度、プロパティ バインディング、オブジェクトの関係に関する入力とターゲットの違いを確認します。結果として得られるマルチモーダル理解フィードバックは、推論編集計画のために MLLM に配信されます。

# 上記の 3 つの側面における生成効果のパフォーマンスを見てみましょう。最初は属性バインディングで、SDXL、DALL·E 3、LMD を比較します。

3 つのテストすべてにおいて、プロンプトの説明を最も正確に反映しているのは RPG だけであることがわかります。 Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

#次に数値の精度があり、表示順序は上記と同じです (SDXL、DALL·E 3、LMD、RPG):

##——ヴィンセントの大型モデルなのでカウントがかなり難しいとは思いませんでしたが、RPGでは簡単に相手を倒しました。 Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

最後の項目は、復元プロンプトの複雑な関係です:

さらに、次のこともできます。また、拡散は階層形式に拡張され、特定のサブ領域をより小さなサブ領域に分割します。 Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始

下の図に示すように、領域セグメンテーションの階層を追加すると、RPG はテキストから画像への生成を大幅に改善できます。これにより、複雑な生成タスクを処理するための新しい視点が提供され、任意の構成の画像を生成できるようになります。

Vincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始


以上がVincent Tu の新しい SOTA! Pika、北京大学、スタンフォードが共同で文勝図の 2 つの主要な問題の解決に役立つマルチモーダル RPG を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい