ホームページ  >  記事  >  ハードウェアチュートリアル  >  4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

WBOY
WBOY転載
2024-04-23 08:04:08788ブラウズ

PDF、Webページ、ポスター、Excelグラフの内容を自動分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。

Shanghai AI Lab、香港中文大学、その他の研究機関によって提案された InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを現実にします。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

解像度制限が 1500x1500 を超えない他のマルチモーダル大型モデルと比較して、この作業では、マルチモーダル大型モデルの最大入力画像が 4K (3840 x1600) 解像度を超え、あらゆる解像度をサポートします。長さと幅の比率と336ピクセル〜4Kのダイナミック解像度が変化します。

リリースから 3 日後、このモデルは、Hugging Face のビジュアル Q&A モデルの人気リストでトップになりました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

4K画像を簡単に理解

最初に効果を見てみましょう~

研究者は論文のホームページ(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)のスクリーンショットを入力しました(解像度は2550x3300です) )、どの論文のモデルが MMBench で最も高いパフォーマンスを持っているかを尋ねました。

この情報は入力スクリーンショットのテキスト部分には記載されておらず、かなり複雑なレーダー チャートにのみ表示されることに注意してください。このような難しい質問に直面しても、IXC2-4KHD はレーダー チャートの情報を理解して質問に正しく答えました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

さらに極端な解像度の画像入力 (816 x 5133) に直面すると、IXC2-4KHD は画像が 7 つの部分で構成されていることを容易に理解し、各部分に含まれるテキスト情報の内容を正確に説明します。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

その後、研究者らは、16 個のマルチモーダル大規模モデル評価指標で IXC2-4KHD の機能を包括的にテストしました。そのうちの 5 つの評価 (DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench) は、高解像度に焦点を当てていました。モデルレートのイメージ理解能力。

わずか 7B のパラメーターを使用して、IXC2-4KHD は 10 の評価で GPT4V や Gemini Pro と同等、またはそれを上回る結果を達成し、高解像度の画像理解に限定されず、さまざまなタスクやシナリオの能力に多用途であることを実証しました。 。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△わずか 7B パラメータの IXC2-4KHD のパフォーマンスは GPT-4V や Gemini-Pro に匹敵します 4K ダイナミック解像度を実現するにはどうすればよいですか?

4K 動的解像度の目標を達成するために、IXC2-4KHD には 3 つの主要な設計が含まれています:

(1) 動的解像度トレーニング:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解像度画像処理戦略

IXC2-4KHD 内 フレームワーク内では、入力画像はアスペクト比を維持したまま、入力領域と最大領域の間の中間サイズ (55x336x336 を超えず、解像度 3840x1617 に相当) にランダムに拡大されます。

その後、画像は自動的に複数の 336x336 領域に分割され、それぞれの視覚的特徴が抽出されます。この動的解像度トレーニング戦略により、モデルはあらゆる解像度の視覚入力に適応できると同時に、高解像度トレーニング データが不十分であるという問題も補えます。

実験によると、動的解像度の上限が増加するにつれて、モデルは高解像度の画像理解タスク (InfgraphicVQA、DocVQA、TextVQA) で安定したパフォーマンスの向上を達成し、4K 解像度ではまだ上限に達しておらず、さらなる可能性を示しています。高解像度での拡大。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2) タイル レイアウト情報を追加します:

モデルが変化する動的解像度に適応できるようにするために、研究者は追加の入力としてタイル レイアウト情報を追加する必要があることを発見しました。これを達成するために、研究者らは単純な戦略を採用しました。特別な「改行」(「n」) トークンをタイルの各行の後に挿入し、タイルのレイアウトをモデルに通知します。実験によると、タイル レイアウト情報の追加は、比較的小さな変更 (HD9 はタイル領域の数が 9 を超えないことを表します) で動的解像度トレーニングにほとんど影響を与えませんが、動的 4K 解像度トレーニングに大幅なパフォーマンス向上をもたらす可能性があります。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3) 推論フェーズ中の解像度の拡張

研究者らはまた、動的解像度を使用するモデルは、タイルの最大上限を増やすことで推論フェーズ中に解像度を直接拡張でき、さらなるパフォーマンスの向上をもたらすことも発見しました。たとえば、HD16 を使用して HD9 (最大 9 ブロック) のトレーニング済みモデルを直接テストすると、InfographicVQA で最大 8% のパフォーマンスの向上が観察されます。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD は、マルチモーダル大規模モデルでサポートされる解像度を 4K レベルに引き上げます。タイルの数を増やすことでより大きな画像入力をサポートするという現在の戦略では、計算コストとメモリの制約が発生するためだと研究者は述べています。彼らは、将来的にはより高解像度のサポートを実現するためのより効率的な戦略を提案する予定です。

論文リンク:

https://arxiv.org/pdf/2404.06512.pdf

プロジェクトリンク:

https://github.com/InternLM/InternLM-XComposer

—終わり—

送信してくださいあなたの提出物を電子メールで送信してください:

ai@qbitai.com

タイトルを明記して、次の内容をお知らせください:

あなたは誰ですか、どこの出身ですか、提出物の内容

論文/プロジェクトのホームページのリンク、および連絡先情報を添付してください

私たちは(時間内に返信できるように最善を尽くします

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

ここをクリックして私をフォローし、スターを付けることを忘れないでください〜

3回のクリックで「共有」、「いいね!」、「視聴」してください

毎日会いましょう最先端の科学技術の進歩について~

以上が4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はmyzaker.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。