>기술 주변기기 >일체 포함 >7B의 최강 롱영상모델! LongVA 비디오 이해도가 1,000프레임을 초과하여 많은 목록을 장악했습니다.

7B의 최강 롱영상모델! LongVA 비디오 이해도가 1,000프레임을 초과하여 많은 목록을 장악했습니다.

WBOY
WBOY원래의
2024-07-19 21:21:221025검색
7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の主な執筆者は、LMMs-Lab チームとシンガポールの南洋理工大学です。共同研究では、張培源氏は南洋理工大学研究助手、張凱成氏は南洋理工大学学部4年生、李波氏は南洋理工大学博士課程3年生であり、指導教員は劉教授です。 MMLab@NTUのZiweiです。 LMMs-Lab は、マルチモーダル モデルの研究に特化した学生、研究者、教師で構成されるチームです。主な研究方向には、マルチモーダル モデルのトレーニングと包括的な評価が含まれます。これまでの研究には、マルチモーダル評価フレームワーク lmms が含まれています。 - 評価など

長いビデオを理解するのは「干し草の山から針を見つけるのと同じくらい難しい」と言われるのはなぜですか?

長いビデオを処理するときに既存の LMM が直面する大きな課題は、過剰な数のビジュアル トークンです。たとえば、LLaVA-1.6 は、1 つの画像に対して 576 ~ 2880 のビジュアル トークンを生成できます。ビデオのフレーム数が多いほど、トークンの数も多くなります。 BLIP2、LLaMA-VID、Chat-UniVI などは、ViT と言語モデルの間の接続層を変更することでビジュアル トークンの数を減らしていますが、それでも特に大量のフレームを処理することはできません。

さらに、高品質の長時間ビデオ データセットが不足していることも大きなボトルネックとなっています。既存のトレーニング データセットは 1 分以内の短いビデオがほとんどで、たとえ長いビデオがあったとしても、注釈付きのテキスト ペアはビデオの数フレームに限定されており、高密度の監視信号が不足しています。

最近、LMMs-Lab、南洋理工大学、その他の機関の研究チームは、千フレームを超えるビデオ データを理解できる LongVA ロング ビデオ モデルを発表し、現在のオープンソース ビデオ マルチモーダル モデルのパフォーマンスを上回りました。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

  • ペーパーリンク: https://arxiv.org/abs/2406.16852

  • デモアドレス: https://longva-demo.lmms-lab.com/

  • コードアドレス: https ://github.com/EvolvingLMMs-Lab/LongVA

著者チームは、マルチモーダル分野で初めて Long Context Transfer (Long Context Transfer) を提案しました。この技術により、マルチモーダル大規模モデル (LMM) が可能になります。長時間のビデオトレーニングの場合、非常に長いビデオを処理して理解します。同社の新しいモデル LongVA は、2000 フレームまたは 200,000 以上のビジュアル トークンを処理でき、ビデオ理解リスト Video-MME で 7B スケールの SoTA を達成します。最新の長いビデオ MLVU リストでは、LongVA が GPT4-o に次ぐ最強のモデルです。

LongVA の作者は以下の図を要約しました。現在のマルチモーダル大規模モデルでは、処理できるフレーム数が長いビデオの処理と理解に制限されていることがわかります。より多くのフレームを処理するために、LLaMA-VID などの作業では、1 つのフレームに対応するトークンの数を大幅に圧縮する必要があります。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

長いコンテキストの移行

長いビデオの処理で直面する課題に応えて、研究チームは「長いコンテキストの移行」という新しいアイデアを提案しました。彼らは、大規模な長いビデオ モデルの現在のマルチフレームのボトルネックは、Vision Encoder から圧縮された特徴を抽出する方法 (下の図 (a)) にあるのではなく、拡張モデルの長いコンテキスト機能にあると考えています。

彼らは、テキスト上の言語モデルのコンテキスト長を拡張するだけで、長いビデオトレーニングを必要とせずに、この能力を視覚モダリティにうまく移せることを発見しました。具体的なアプローチは、最初に長いテキスト データを通じて言語モデルをトレーニングし、次に短い画像データをモーダル アラインメントに使用することです。彼らは、この方法でトレーニングされたモデルはテスト中にマルチフレーム ビデオを直接理解できるため、長時間のビデオ トレーニングが不要であることを発見しました。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

長い言語モデルのトレーニング プロセス中、著者チームは Qwen2-7B-Instruct をベースとして使用し、長いコンテキスト トレーニングを通じてテキスト コンテキストの長さを 224K まで拡張しました。トレーニング プロセス中に、FlashAttendant-2、Ring Attendance、アクティブ化チェックポイント、パラメーター オフロードなどのさまざまな最適化戦略が使用され、トレーニングの効率とメモリ使用率が向上します。

모달 정렬 단계에서 저자는 이미지와 비디오를 동시에 처리하기 위해 "UniRes"라는 통합 인코딩 방식을 설계했습니다. UniRes 방식은 LLaVA-1.6의 AnyRes 인코딩 방식과 유사하지만 기본 이미지 부분이 제거되고 각 그리드가 1차원적으로 1차원적이며 각 그리드 내에서 2x2 기능 풀링이 수행됩니다. 이 접근 방식을 사용하면 이미지 데이터를 비디오로 확장할 때 일관된 표현이 유지됩니다.

LongVA는 "짧은 컨텍스트 학습, 긴 컨텍스트 테스트" 전략을 채택합니다. 즉, 모델은 모달 정렬 단계의 학습에 이미지-텍스트 데이터만 사용하고 테스트 중 처리 및 테스트에는 긴 비디오를 직접 사용한다는 의미입니다. 이 전략은 긴 컨텍스트 전송 현상을 효과적으로 보여줌으로써 모델이 긴 비디오 교육 없이도 긴 비디오를 이해하고 처리할 수 있는 능력을 얻을 수 있게 해줍니다.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

LongVA의 뛰어난 성능

현재 긴 동영상에 대한 LMM의 시각적 컨텍스트 길이를 평가할 수 있는 벤치마크가 없습니다. 이 문제를 해결하기 위해 LongVA 팀은 건초 더미 속의 바늘 테스트를 텍스트에서 시각적으로 확장하고 V-NIAH(Visual Needle-In-A-Haystack) 벤치마크를 제안했습니다.

V-NIAH 테스트에서 팀은 5개의 이미지 질문과 답변 질문을 설계하고 각 질문을 여러 시간의 영화에 단일 프레임으로 삽입하고 시각적 입력으로 1프레임/초의 빈도로 비디오를 샘플링했습니다. 이러한 "바늘"의 이미지는 모델이 언어 지식만으로는 질문에 답할 수 없도록 기존의 시각적 질문 답변 데이터 세트 또는 AI 생성 이미지에서 파생됩니다. 각 질문에는 올바른 시스템이나 사람이 비디오에서 "핀" 프레임을 찾고 질문에 답할 수 있도록 하는 "현지화 힌트"가 포함되어 있습니다.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

V-NIAH 테스트 결과 LongVA의 시각적 건초 더미 테스트는 2000프레임(프레임당 144개 토큰) 내에서 거의 정확하며 3000프레임 규모에서도 좋은 정확도를 유지하는 것으로 나타났습니다. 흥미롭게도 언어 모델과 유사하게 LongVA도 V-NIAH에서 어느 정도 Lost-In-The-Middle 현상을 가지고 있음을 발견했습니다.

Tencent, 중국 과학기술대학교 및 기타 기관이 최근 제안한 Video-MME 목록에서 LongVA는 7위를 기록하며 7B 모델의 SoTA에 도달했습니다. /Https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Northern Post, Peking University 및 Zhejiang University가 시작한 MLVU 벤치마크 테스트에서 LONGVA는 더욱 강력한 오픈 소스 모델입니다. GPT-4o.

                                                   

저자 팀은 논문에 몇 가지 효과 시연도 첨부했습니다.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

자세한 내용을 알아보려면 관심 있는 독자는 원본 논문을 확인하세요.

위 내용은 7B의 최강 롱영상모델! LongVA 비디오 이해도가 1,000프레임을 초과하여 많은 목록을 장악했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.