画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。

画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。

王林

Oct 11, 2023 pm 12:45 PM

データ研究

大規模モデルは言語と視覚の間を飛躍させており、テキストと画像のコンテンツをシームレスに理解して生成することを約束しています。最近の一連の研究によると、マルチモーダル機能の統合は成長傾向であるだけでなく、すでにマルチモーダルな会話からコンテンツ作成ツールに至るまで重要な進歩をもたらしています。大規模な言語モデルは、テキストの理解と生成において比類のない機能を実証しています。ただし、一貫したテキストの物語を含む画像を同時に生成することはまだ開発の余地があります。

最近、カリフォルニア大学サンタクルーズ校の研究チームは、MiniGPT-5 に基づく手法を提案しました。「生成投票」の概念に基づく革新的なインターリーブ視覚言語生成技術。

論文アドレス: https://browse.arxiv.org/pdf /2310.02239v1.pdf
プロジェクトアドレス: https://github.com/eric-ai-lab/MiniGPT-5

MiniGPT-5 は、特別なビジュアルトークン「生成投票」を通じて安定した拡散メカニズムと LLM を組み合わせることで、熟練したマルチモーダル生成への道を示します。モデル。同時に、この記事で提案されている 2 段階のトレーニング方法では、記述のない基本段階の重要性が強調されており、データが不足している場合でもモデルを成功させることができます。このメソッドの一般的な段階ではドメイン固有のアノテーションが必要ないため、このソリューションは既存のメソッドとは異なります。生成されたテキストと画像が調和していることを保証するために、この記事の二重損失戦略が機能し、生成投票方法と分類方法がこの効果をさらに強化します。これらのテクニックに基づいて、この作品は変革的なアプローチを示しています。研究チームは、ViT (Vision Transformer) と Qformer、および大規模な言語モデルを使用することで、マルチモーダル入力を生成投票に変換し、それらを高解像度の Stable Diffusion2.1 とシームレスに組み合わせて、コンテキストを意識した画像生成を実現しました。この論文では、補助入力としての画像を命令調整方法と組み合わせ、テキストと画像の生成損失の使用を先駆的に行い、それによってテキストと視覚の間の相乗効果を拡大します

MiniGPT-5 と CLIP 制約などモデルは照合され、拡散モデルは MiniGPT-4 と巧みに統合され、ドメイン固有のアノテーションに依存することなく、より優れたマルチモーダルな結果が得られます。最も重要なことは、私たちの戦略はマルチモーダル視覚言語の基本モデルの進歩を活用し、マルチモーダル生成機能を強化するための新しい青写真を提供できることです。

#以下の図に示すように、元のマルチモーダル理解機能とテキスト生成機能に加えて、MiniGPT5 は合理的で一貫したマルチモーダル出力も提供できます。

#この記事の貢献は 3 つの側面に反映されています。

マルチモーダルエンコーダは、LLM および反転生成投票より効果的であることが証明されている新しい汎用技術を表し、安定拡散と組み合わせて、インターリーブされたビジュアルおよび言語出力を生成します (マルチモーダル言語モデル。 -モーダル生成) )。

は、説明不要のマルチモーダル生成のための新しい 2 段階のトレーニング戦略に焦点を当てています。シングルモーダル位置合わせステージは、多数のテキストと画像のペアから高品質のテキスト位置合わせされた視覚特徴を取得します。マルチモーダル学習フェーズには、新しいトレーニングタスク、プロンプトコンテキストの生成が含まれており、視覚的プロンプトとテキストプロンプトが適切に調整されて生成されるようにします。トレーニング段階で分類子を使用しないガイダンスを追加すると、生成の品質がさらに向上します。

他のマルチモーダル生成モデルと比較して、MiniGPT-5 は CC3M データセットで最先端のパフォーマンスを実現します。 MiniGPT-5 は、VIST や MMDialog などのよく知られたデータセットに対する新しいベンチマークも確立します。
#次に、この研究の内容について詳しく見ていきましょう
##方法論の概要

#大規模言語モデルにマルチモーダル生成機能を持たせるために、研究者は、事前トレーニングされたマルチモーダル大規模言語モデルとテキストから画像への生成モデルを統合する構造化フレームワークを導入しました。異なるモデルフィールド間の差異を解決するために、彼らは、元の画像上で直接トレーニングできる特別な視覚シンボル「生成投票」（生成投票）を導入しました。さらに、生成品質をさらに向上させるために、分類子を使用しないブートストラップ戦略と組み合わせた 2 段階のトレーニング方法が進歩しています。

#マルチモーダル入力ステージ

マルチモーダル大規模モデル ( MiniGPT-4 は主にマルチモーダルの理解に焦点を当てており、画像を連続入力として処理できます。その機能をマルチモーダル生成に拡張するために、研究者は、視覚的特徴を出力するために特別に設計された生成 Voken を導入しました。さらに、マルチモーダル出力学習のための大規模言語モデル (LLM) フレームワーク内でパラメーター効率の高い微調整手法も採用しました。

マルチモーダル出力生成

生成トークンが生成モデルと正確に位置合わせされていることを確認するために、研究者らは次元マッチングのためのコンパクトなマッピングモジュールを開発し、テキストの空間損失と潜在的な拡散を含むいくつかの教師付き損失を導入しました。モデルの損失。テキストスペースの損失は、モデルがトークンの位置を正確に学習するのに役立ちますが、潜在的な拡散損失はトークンを適切な視覚的特徴と直接位置合わせします。生成記号の特徴は画像によって直接ガイドされるため、この方法は完全な画像の説明を必要とせず、説明不要の学習を実現します

#トレーニング戦略

##テキストドメインと画像ドメインの間に無視できないドメインシフトがあることを考慮すると、研究者らは、限定されたインターリーブされたテキストと画像のデータセットを直接トレーニングすると、位置ずれが発生する可能性があることを発見しました。画質が劣化します。

したがって、彼らはこの問題を軽減するために 2 つの異なるトレーニング戦略を使用しました。最初の戦略では、拡散プロセス全体を通じて生成されたトークンの有効性を向上させるために、分類子を使用しないブートストラップ手法を採用します。2 番目の戦略は、大まかな特徴の位置合わせに焦点を当てた最初の事前トレーニングフェーズと、それに続く微調整フェーズの 2 つのフェーズで展開されます。複雑な特徴の学習について。

実験と結果

モデルの有効性を評価するために、研究者は複数のベンチマークを選択し、一連の評価を実施しました。実験の目的は、いくつかの重要な質問に対処することです:

MiniGPT-5 は信頼できる画像と妥当なテキストを生成できますか?

MiniGPT-5 は、シングルラウンドおよびマルチラウンドのインターリーブビジュアル言語生成タスクにおいて、他の SOTA モデルと比較してどのように動作しますか?
各モジュールの設計は全体的なパフォーマンスにどのような影響を与えますか?
MiniGPT-5 モデルのパフォーマンスをさまざまなトレーニング段階で評価するために、定量分析を実施しました。その結果を図 3 に示します。

提案されたモデルの一般性と堅牢性を実証するために、視覚 (画像関連のメトリクス) と言語 (テキストのメトリクス) の両方の領域をカバーして評価しました

VIST 最終ステップ評価

実験の最初のセットには、単一ステップの評価が含まれます。つまり、最後のステップでプロンプトモデルに従って対応する画像が生成され、その結果が表 1 に示されています。

MiniGPT-5 は、3 つの設定すべてにおいて、微調整された SD 2 よりも優れたパフォーマンスを発揮します。特に、MiniGPT-5 (LoRA) モデルの CLIP スコアは、特に画像とテキストのプロンプトを組み合わせた場合に、複数のプロンプトタイプにわたって他のバリアントよりも一貫して優れています。一方、FID スコアは MiniGPT-5 (プレフィックス) モデルの競争力を強調しており、画像の埋め込み品質 (CLIP スコアに反映される) と画像の多様性と信頼性 (CLIP スコアに反映される) の間にトレードオフがある可能性があることを示しています。 FID スコア）。単一モダリティ登録ステージを含まずに VIST 上で直接トレーニングされたモデル (UAS なしの MiniGPT-5) と比較すると、モデルは意味のある画像を生成する能力を保持していますが、画像の品質と一貫性は大幅に低下します。この観察は、2 段階のトレーニング戦略の重要性を強調しています

##VIST の複数段階の評価画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。

より詳細かつ包括的な評価では、研究者はモデルに以前の歴史的コンテキストを体系的に提供し、その後、各ステップで生成されたデータを評価しました。。

表 2 と 3 は、これらの実験の結果をまとめたもので、それぞれ画像と言語のメトリックに関するパフォーマンスの概要を示しています。実験結果は、MiniGPT-5 がロングレベルのマルチモーダル入力キューを利用して、元のモデルのマルチモーダル理解機能を損なうことなく、すべてのデータにわたって一貫した高品質の画像を生成できることを示しています。これは、さまざまな環境における MiniGPT-5 の有効性を強調しています

##VIST 人間による評価

表 4 に示すように、MiniGPT-5 は 57.18% のケースで更新を生成しました。 52.06% のケースでより良い画質を提供し、57.62% のシーンでより一貫性のあるマルチモーダル出力を生成しました。仮定法を使わずにテキストから画像へのプロンプトナレーションを採用した 2 段階のベースラインと比較して、これらのデータは、その強力なマルチモーダル生成機能を明らかに示しています。

MMDialog 複数ラウンドの評価

##によると表 5 の結果は、MiniGPT-5 がテキスト返信の生成においてベースラインモデル Divter よりも正確であることを示しています。生成された画像は同様の品質ですが、MiniGPT-5 は MM 相関においてベースラインモデルを上回っており、画像生成を適切に配置し、一貫性の高いマルチモーダル応答を生成する方法をよりよく学習できることを示唆しています

画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。 MiniGPT-5 の出力を見て、それがどれほど効果的であるかを見てみましょう。以下の図 7 は、MiniGPT-5 と CC3M 検証セットのベースラインモデルとの比較を示しています。

画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。以下の図 8 は、 MiniGPT-5 と VIST 検証セット間のベースラインモデルの比較

##下の図 9 は、MiniGPT-5 と MMDialog テストセットを示しています。ベースラインモデルの比較。画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。

研究の詳細については、元の論文を参照してください。画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。

以上が画像とテキストの生成を統合する MiniGPT-5 が登場しました。トークンは Voken になり、モデルは書き込みを続けるだけでなく、自動的に画像を追加することもできます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、