ホームページ  >  記事  >  テクノロジー周辺機器  >  7Bの最強ロングビデオモデル! LongVA ビデオの理解が 1,000 フレームを超え、複数のリストを独占

7Bの最強ロングビデオモデル! LongVA ビデオの理解が 1,000 フレームを超え、複数のリストを独占

WBOY
WBOYオリジナル
2024-07-19 21:21:22934ブラウズ
7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の主な執筆者は、LMMs-Lab チームとシンガポールの南洋理工大学です。共同研究では、張培源氏は南洋理工大学研究助手、張凱成氏は南洋理工大学学部4年生、李波氏は南洋理工大学博士課程3年生であり、指導教員は劉教授です。 MMLab@NTUのZiweiです。 LMMs-Lab は、マルチモーダル モデルの研究に特化した学生、研究者、教師で構成されるチームです。主な研究方向には、マルチモーダル モデルのトレーニングと包括的な評価が含まれます。これまでの研究には、マルチモーダル評価フレームワーク lmms が含まれています。 - 評価など

長いビデオを理解するのは「干し草の山から針を見つけるのと同じくらい難しい」と言われるのはなぜですか?

長いビデオを処理するときに既存の LMM が直面する大きな課題は、過剰な数のビジュアル トークンです。たとえば、LLaVA-1.6 は、1 つの画像に対して 576 ~ 2880 のビジュアル トークンを生成できます。ビデオのフレーム数が多いほど、トークンの数も多くなります。 BLIP2、LLaMA-VID、Chat-UniVI などは、ViT と言語モデルの間の接続層を変更することでビジュアル トークンの数を減らしていますが、それでも特に大量のフレームを処理することはできません。

さらに、高品質の長時間ビデオ データセットが不足していることも大きなボトルネックとなっています。既存のトレーニング データセットは 1 分以内の短いビデオがほとんどで、たとえ長いビデオがあったとしても、注釈付きのテキスト ペアはビデオの数フレームに限定されており、高密度の監視信号が不足しています。

最近、LMMs-Lab、南洋理工大学、その他の機関の研究チームは、千フレームを超えるビデオ データを理解できる LongVA ロング ビデオ モデルを発表し、現在のオープンソース ビデオ マルチモーダル モデルのパフォーマンスを上回りました。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

  • ペーパーリンク: https://arxiv.org/abs/2406.16852

  • デモアドレス: https://longva-demo.lmms-lab.com/

  • コードアドレス: https ://github.com/EvolvingLMMs-Lab/LongVA

著者チームは、マルチモーダル分野で初めて Long Context Transfer (Long Context Transfer) を提案しました。この技術により、マルチモーダル大規模モデル (LMM) が可能になります。長時間のビデオトレーニングの場合、非常に長いビデオを処理して理解します。同社の新しいモデル LongVA は、2000 フレームまたは 200,000 以上のビジュアル トークンを処理でき、ビデオ理解リスト Video-MME で 7B スケールの SoTA を達成します。最新の長いビデオ MLVU リストでは、LongVA が GPT4-o に次ぐ最強のモデルです。

LongVA の作者は以下の図を要約しました。現在のマルチモーダル大規模モデルでは、処理できるフレーム数が長いビデオの処理と理解に制限されていることがわかります。より多くのフレームを処理するために、LLaMA-VID などの作業では、1 つのフレームに対応するトークンの数を大幅に圧縮する必要があります。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

長いコンテキストの移行

長いビデオの処理で直面する課題に応えて、研究チームは「長いコンテキストの移行」という新しいアイデアを提案しました。彼らは、大規模な長いビデオ モデルの現在のマルチフレームのボトルネックは、Vision Encoder から圧縮された特徴を抽出する方法 (下の図 (a)) にあるのではなく、拡張モデルの長いコンテキスト機能にあると考えています。

彼らは、テキスト上の言語モデルのコンテキスト長を拡張するだけで、長いビデオトレーニングを必要とせずに、この能力を視覚モダリティにうまく移せることを発見しました。具体的なアプローチは、最初に長いテキスト データを通じて言語モデルをトレーニングし、次に短い画像データをモーダル アラインメントに使用することです。彼らは、この方法でトレーニングされたモデルはテスト中にマルチフレーム ビデオを直接理解できるため、長時間のビデオ トレーニングが不要であることを発見しました。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

長い言語モデルのトレーニング プロセス中、著者チームは Qwen2-7B-Instruct をベースとして使用し、長いコンテキスト トレーニングを通じてテキスト コンテキストの長さを 224K まで拡張しました。トレーニング プロセス中に、FlashAttendant-2、Ring Attendance、アクティブ化チェックポイント、パラメーター オフロードなどのさまざまな最適化戦略が使用され、トレーニングの効率とメモリ使用率が向上します。

モーダ​​ル調整の段階で、著者は画像とビデオを同時に処理するための「UniRes」と呼ばれる統一エンコード方式を設計しました。 UniRes スキームは、LLaVA-1.6 の AnyRes エンコード スキームに似ていますが、ベース画像部分が削除され、各グリッドは 1 次元であり、各グリッド内で 2x2 の特徴プーリングが実行されます。このアプローチにより、画像データをビデオに拡張するときに一貫した表現が維持されます。

LongVA は、「短いコンテキスト トレーニング、長いコンテキスト テスト」の戦略を採用しています。これは、モデルがモーダル アライメント段階でのトレーニングに画像テキスト データのみを使用し、テスト中の処理とテストに長いビデオを直接使用することを意味します。この戦略は、長いコンテキスト転送の現象を効果的に実証し、モデルが長いビデオ トレーニングなしで長いビデオを理解して処理できるようにします。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

LongVA のスーパーパフォーマンス

現在、長いビデオの LMM の視覚的なコンテキストの長さを評価するベンチマークはありません。この問題を解決するために、LongVA チームは干し草の中の針テストをテキストからビジュアルに拡張し、Visual Needle-In-A-Haystack (V-NIAH) ベンチマークを提案しました。

V-NIAH テストでは、チームは 5 つの画像の質問と回答の質問を設計し、各質問を 1 つのフレームとして数時間の映画に挿入し、視覚入力として 1 フレーム/秒の頻度でビデオをサンプリングしました。これらの「針」の画像は、モデルが言語知識だけでは質問に回答できないことを保証するために、既存の視覚的な質問回答データセットまたは AI 生成画像から派生しています。各質問には、正しいシステムまたは人間がビデオから「ピン」フレームを見つけて質問に答えることを可能にする「ローカリゼーション ヒント」が含まれています。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

V-NIAH テストの結果は、LongVA の視覚的な干し草の山に針を刺すテストが 2000 フレーム (フレームあたり 144 トークン) 以内でほぼ正確であり、3000 フレームのスケールでも良好な精度率を維持していることを示しています。興味深いことに、言語モデルと同様に、LongVA にも V-NIAH である程度の Lost-In-The-Middle 現象があることがわかりました。

Tencent、中国科学技術大学、その他の機関が提案した最近のビデオ MME リストでは、LongVA が 7 位にランクされ、7B モデルの SoTA に到達しました。 /https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

ノーザンポスト、北京大学、浙江大学によって開始されたMLVUベンチマークテストでは、LONGVAはさらにそれを上回る最強のオープンソースモデルですGPT-4o。

著者チームは、論文にいくつかの効果のデモンストレーションも添付しました。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

詳細については、興味のある読者は原論文をご覧ください。

以上が7Bの最強ロングビデオモデル! LongVA ビデオの理解が 1,000 フレームを超え、複数のリストを独占の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。