ホームページ >テクノロジー周辺機器 >AI >8B テキスト マルチモーダル大規模モデル インデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。
AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、記事を投稿するか、報告用メールアドレスにご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
最近、マルチモーダル大規模モデル (MLLM) は、テキスト中心の VQA の分野、特に GPT4V や Gemini などの複数のクローズドソース モデルで大きな進歩を遂げています。そして、いくつかの面では人間の能力を超えたパフォーマンスを実証しました。しかし、オープンソース モデルのパフォーマンスは依然としてクローズド ソース モデルに比べてはるかに遅れています。最近、MonKey、LLaVAR、TG-Doc、ShareGPT4V などの多くの画期的な研究が、不十分な命令の問題に焦点を当て始めています。チューニングデータ。これらの取り組みは顕著な成果を上げていますが、画像記述データと VQA データが異なるドメインに属しており、画像コンテンツの表現の粒度や範囲に不一致があるなど、依然としていくつかの問題があります。さらに、合成データのサイズが比較的小さいため、MLLM の可能性を最大限に発揮することができません。
論文タイトル: TextSquare: テキスト中心の視覚的命令チューニングのスケールアップ
論文アドレス: https ://arxiv.org/abs/2404.12803
これを削減するには
VQAデータ生成
スクエア戦略アプローチそれには、自問、自己回答、推論、自己評価の 4 つのステップが含まれます。 Self-Questioning は、テキストと画像の分析と理解における MLLM の機能を活用して、画像内のテキスト コンテンツに関連する質問を生成します。自己応答では、CoT やフューショットなどのさまざまなプロンプト手法を使用して、これらの質問に対する回答が提供されます。 Self-Reasoning は、MLLM の強力な推論機能を使用して、モデルの背後にある推論プロセスを生成します。自己評価では、質問の妥当性、画像テキストの内容との関連性、回答の正確性を評価することで、データの品質を向上させ、偏見を軽減します。
研究者らは、Square 法に基づいて、自然の風景、チャート、フォーム、Square-10M などのさまざまな公開ソースから大量のテキストを含む多様な画像セットを収集しました。は領収書、書籍、PPT、PDF などを使用して構築され、テキスト理解に重点を置いた MLLM である TextSquare-8B は、このデータセットに基づいてトレーニングされました。
図 1 に示すように、TextSquare-8B は複数のベンチマークで GPT4V や Gemini と同等以上の結果を達成でき、他のオープンソース モデルを大幅に上回っています。 TextSquare の実験では、VQA タスクに対する推論データのプラスの影響が検証され、幻覚を軽減しながらモデルのパフォーマンスを向上させる能力が実証されました。
さらに、大規模なデータセットを利用することで、命令調整データサイズ、学習収束損失、モデルパフォーマンスの関係が明らかになります。少量の命令調整データでも MLLM を適切にトレーニングできますが、命令調整データが拡大し続けると、モデルのパフォーマンスをさらに向上させることができ、命令微調整データとモデルの間には対応するスケーリング則も存在します。 。
## 図 3 1,000 万平方の画像配信と QA 配信およびその他の詳細 データ収集
データ収集戦略の主な目標は、現実世界のテキストが豊富なシナリオを広範囲にカバーすることです。この目的を達成するために、研究者らは 380 万枚のテキストが豊富な画像を収集しました。これらの画像はさまざまな特性を示します。たとえば、チャートや表は、緻密な統計情報を含むテキスト要素に焦点を当てており、PPT、スクリーンショット、および Web イメージは、テキストと強調表示された視覚情報との間の相互作用のために設計されており、画像が含まれています。自然の風景から派生した詳細で密度の高いストリートビューのテキスト。収集された画像は現実世界のテキスト要素のマッピングを形成し、テキスト中心の VQA を研究するための基礎を形成します。
データ生成
研究者は、Gemini Pro のマルチモーダル理解機能を使用して、特定のデータ ソースから画像を選択し、自問、自問、自問の 3 つの段階を経ます。および自己推論 VQA と推論コンテキストのペアを生成します。
自問: この段階で、Gemini Pro はこれらのプロンプトに基づいて画像の包括的な分析を実行し、意味のあるものを生成します。問題の理解に基づいた情報。一般的な MLLM のテキスト要素を理解する能力は通常、ビジュアル モデルの能力よりも弱いことを考慮して、抽出されたテキストを特殊な OCR モデルを通じてプロンプトに前処理します。
自己回答: Gemini Pro は、思考連鎖 (CoT) や少数ショット プロンプトなどのテクノロジーを使用して、質問を生成する際のコンテキスト情報を強化します。生成された回答の信頼性。
自己推論: このステージでは、答えの詳細な理由が生成され、Gemini Pro は問題と視覚的要素の間の関係についてさらに考えることが求められます。錯覚を減らし、正確な回答を向上させます。
データ フィルタリング
自問、回答、推論は有効ですが、生成された画像とテキストのペアは、錯覚的なコンテンツに直面する可能性があります。質問と間違った答えを意味します。したがって、LLM の評価機能に基づいてフィルタリング ルールを設計し、高品質の VQA ペアを選択します。
自己評価 ヒント Gemini Pro と他の MLLM は、生成された質問が意味があるかどうか、またその回答が問題を正しく解決するのに十分であるかどうかを判断します。
マルチプロンプトの一貫性 研究者は、生成されたコンテンツを直接評価することに加えて、データ生成時にプロンプトとコンテキスト空間を手動で追加します。正しく意味のある VQA ペアは、異なるプロンプトが提供された場合でも意味的に一貫している必要があります。
マルチコンテキストの一貫性 研究者は、質問の前にさまざまなコンテキスト情報を準備することで、VQA ペアをさらに検証しました。
#TextSquare-8B
TextSquare-8B は、CLIP ViT-L-14 のビジョンを含む、InternLM-Xcomposer2 のモデル構造を利用しています。 -336 エンコーダ、画像解像度がさらに 700 に向上、InternLM2-7B-ChatSFT に基づく大規模言語モデル LLM、ビジュアル トークンとテキスト トークンを調整するブリッジ プロジェクター。 TextSquare-8B のトレーニングには、SFT の 3 つのステージが含まれています。 最初のステージでは、解像度 490 のフル パラメーター (ビジョン エンコーダー、プロジェクター、LLM) を使用してモデルを微調整します。 第 2 段階では、入力解像度が 700 に増加され、ビジョン エンコーダーのみが解像度の変更に適応するようにトレーニングされます。 第 3 段階では、すべてのパラメータが解像度 700 でさらに微調整されます。 TextSquare は、Square-10M データセットに基づいて、8B パラメーターと通常サイズの画像解像度を持つモデルが、テキスト中心の VQA の効果 ( GPT4V、Gemini Pro)。実験結果
図 4(a) は、TextSquare が単純な算術関数を備えていることを示しています。図 4(b) は、テキストの内容を理解し、密なテキスト内のおおよその位置を提供する機能を示しています。図 4(c) は、テーブル構造を理解する TextSquare の機能を示しています。 #MLLM ベンチマーク
テキスト中心の KIE ベンチマーク KIE タスクのベンチマーク (SROIE、POIE) からテキスト中心の重要な情報を抽出し、KIE タスクを VQA タスクに変換しますどちらのデータセットでも、平均 14.8% の改善で最高のパフォーマンスが達成されました。
OCRBench テキスト認識、数式認識、テキスト中心の VQA、KIE などの 29 個の OCR 関連評価タスクが含まれており、最高のパフォーマンスを実現します。オープンソースモデル、および約10Bのパラメータボリュームが600ポイントに達する最初のモデルになります。
##一般的な VQA および幻覚評価ベンチマーク 一般的な VQA ベンチマーク (VizWiz VQAv2、GQA、TextSquare POPE) は、Xconposer2 と比べて大きな低下はなく、VisWiz および POPE で最高のパフォーマンスを維持しており、最高の方法よりも 3.6% 高く、この方法の有効性がモデルの幻覚を軽減できることがわかります。
アブレーション実験
各ベンチマークにおける TextSquare と Xcomposer2 の平均比較7.7%の増加。 自己評価を追加した後、モデルのパフォーマンスが大幅に向上しました。 推論データを追加すると、パフォーマンスが大幅に向上し、幻覚の発生を減らすことができます。
データ スケールと収束損失とモデルのパフォーマンスの関係
データ スケールが増加するにつれて、モデルの損失は減少し続けます。降下速度は徐々に遅くなります。収束損失と命令スケーリング データの間の関係は対数関数に近似します。 命令チューニング データの増加に伴い、モデルのパフォーマンスはますます向上していますが、増加率は引き続き鈍化しており、ほぼ対数関数と一致しています。 全体として、テキスト中心の VQA シナリオでは、命令調整フェーズに対応するスケーリング則があり、モデルのパフォーマンスはデータ スケーリングの対数に比例し、より大きなデータ セットになる可能性のある最適化をガイドできます。モデルのパフォーマンスを構築して予測します。概要
この論文では、研究者らは、これを使用して高品質のテキスト中心の命令チューニング データ セット (Square-10M) を構築する Square 戦略を提案しました。データセットである TextSquare-8B は、複数のベンチマークで GPT4V に匹敵するパフォーマンスを達成し、さまざまなベンチマークで最近リリースされたオープンソース モデルを大幅に上回ります。 さらに、研究者らは、命令調整データセットのサイズ、収束損失、モデルのパフォーマンスの関係を導き出し、より大きなデータセットを構築する道を切り開き、データの量と質がモデルに重要な影響を与えることを確認しました。重要なパフォーマンス。 最後に、研究者らは、データの量と質をさらに改善してオープンソース モデルと主要なモデルの間の差を縮める方法は、非常に有望な研究方向であると考えられると指摘しました。以上が8B テキスト マルチモーダル大規模モデル インデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。