ホームページ >テクノロジー周辺機器 >AI >最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

WBOY
WBOYオリジナル
2024-07-19 13:12:42470ブラウズ
最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メールアドレス: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者はシンガポール国立大学、南洋理工大学、ハルビン工業大学の出身です。その中で、Fei Hao 氏の研究の方向性は、マルチモーダル学習とマルチモーダル大規模言語モデルです。 Wu Shengqiong は、シンガポール国立大学の博士課程の学生です。彼女の主な研究方向はマルチモーダル大規模言語モデルです。 Ji Wei の主な研究方向は、マルチモーダル学習とマルチモーダル コンテンツ生成です。 Zhang Hanwang 教授の研究対象には、コンピューター ビジョンと因果推論が含まれます。 Zhang Meishan 教授の研究対象には、コード インテリジェンス、自然言語処理、マルチモーダルの生成と理解が含まれます。 Mong-Li Lee 教授と Wynne Hsu 教授の研究方向には、ソーシャル メディア分析、協調機械学習などが含まれます。

最近、シンガポール国立大学、南洋理工大学、ハルビン工業大学の研究者が共同で新しいビデオ推論フレームワークを提案しました。これは、大規模なモデル推論コミュニティがビデオ推論を提案した初めてのことでもあります。指向性思考チェーン フレームワーク (Video-of-Thought、VoT)。 Video Thinking Chain VoT により、ビデオのマルチモーダル大規模言語モデルが、複雑なビデオの理解と推論のパフォーマンスを大幅に向上させることができます。この研究は ICML 2024 の口頭論文として受理されました。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

  • 論文リンク: https://openreview.net/pdf?id=fO31YAyNbI
  • プロジェクトリンク: http://haofei.vip/VoT/

知覚から認知への飛躍

視覚処理コミュニティでは、静止画像についての理解と推論と比較して、ビデオについての推論ははるかに複雑で困難です。これは、ビデオには当然、より困難な動的なタイミング特性と、画像の存在が含まれるためです。より冗長なビジュアルコンテンツ。これまでのビデオ理解研究は主に、ビデオ動作認識、動的認識、ビデオ記述生成など、ビデオの浅い認識に焦点を当てていました。ただし、これらの方法には、複雑なビデオを深く理解して推論するという点で依然として大きな欠点があります。浅いビデオ知覚と比較して、複雑なビデオ推論には、ビデオの時空間特性を複雑に理解するだけでなく、ピクセルの背後にある固有の高次の常識を深く理解することも必要です。この問題を完全に解決するために登場したのがVoTです。

人間にとって、ビデオを理解することは、食べたり飲んだりするのと同じくらい簡単です。では、私たち人間はどのようにしてビデオ理解推論を行うのでしょうか?次の場合を考えてみましょう。下のビデオは、高速道路で高速車が赤いタンクローリーと衝突するシーンを示しています。対応する質問は次のとおりです。「この赤い石油タンクローリーはどうなりますか?

」タンクローリー。次に、ビデオを注意深く見て、ビデオ内のターゲット オブジェクトのアクションのセマンティクスを追跡します。次に、おそらく常識的な知識と組み合わせて、深く高度な推論を実行します。最後に、推論的な答えを示します: 「発火するか、爆発する可能性もあります

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

二重の能力: 知覚と認知の完璧な組み合わせ

」 上記の人間の認知パターンとパターンからインスピレーションを引き出します。研究チームは、複雑なビデオ推論を達成するには、ピクセルを理解する知覚能力と意味を理解する認知能力という 2 つの重要な能力が必要であると指摘しました。そして最も重要なことは、ビデオ推論は瞬時の 1 ステップのプロセスではなく、低レベルの認識から高レベルの認識までのマルチホップ プロセスである可能性があることです。

知覚: 正確なコンテンツの知覚を実現するには、ビデオの動きをピクセルレベルで詳細に理解する必要があります。このプロセスでは、特定のビデオ コンテンツと詳細なコンテンツ ターゲティングの緊密な統合が必要になる場合があります。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

しかし、既存のビデオ理解方法のほとんどはインスタンス分析に限定されており、詳細なビデオ理解はおろか、細かい制御や正確なオブジェクトレベルの認識や追跡が不足しています。

認知能力: 深い推論には認知能力が必要であり、モデルが合理的な説明や因果関係の想像力を提供できるようになります。このレベルには、ある程度の世界の常識的な知識が必要です。たとえば、「高所から飛び降りると骨折する可能性がある」、「石油タンカーと衝突すると爆発する可能性がある」などを理解してください。
最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論
新しい推論フレームワーク: ビデオ思考チェーンの誕生

この目標を達成するために、研究チームは新しい推論フレームワーク「ビデオ思考チェーン」を提案しました。この思考チェーンは、複雑なビデオ推論の問題を、下位レベルの視覚認識から上位レベルの常識認識までの一連のサブ問題に分解します。

同時に、上記のきめ細かいビデオ認識機能の実現を支援するために、著者は、推論プロセスを支援し、支援するために時空間シーングラフ (STSG) 表現を使用することも提案しました。きめの細かい知覚中間結果を生成します。これにより、空間的および時間的特徴の詳細な理解が可能になります。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

そしてビデオマルチモーダルラージモデルと組み合わせて、新しいビデオMLLM、MotionEmpicが最終的に提案されました。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

実験結果は、著者が提案した新しい推論フレームワークが、さまざまなタイプのビデオ QA におけるモデルのパフォーマンスを大幅に向上させ、現在のすべての従来のビデオ MLLM および CoT 手法のパフォーマンスを上回ることを示しています。

A. ビデオ思考チェーン VoT 推論フレームワーク

VoT 推論フレームワークには、合計 5 つのステップが含まれています:

ステップ 1: タスクの定義と目標の特定

まず、入力ビデオと質問が与えられると、VoT は質問に含まれる可能性のあるすべてのターゲットを特定します。このプロセスにより、システムは分析が必要なオブジェクトと関連タスクを明確に理解できるようになります。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

ステップ-2: ターゲット追跡

次に、VoT はビデオコンテンツを分析し、問題に関係するターゲットの行動軌跡を追跡し、知覚レベルで時空間シーングラフ (STSG) を出力します。レベル。ターゲット軌道に関して生成された STSG は、行動分析の次のステップの知覚的証拠となります。
最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論
ステップ-3: 行動分析

このステップでは、VoT はさらに、ターゲット追跡結果を STSG に統合することで、より潜在的に関連性のある常識知識をモデルに考慮するように促します。ビデオのピクセル観察を現実世界に結び付けて、ビデオをより深く理解できるようになります。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

ステップ 4: 質問に答えるためのランキング メカニズム

ビデオ内のターゲット行動を深く理解した後、元の質問に答え始めます。まず、このシステムはすべての QA 質問を複数の質問に統合します。つまり、提供された複数の回答候補から最終的な回答を選択します。さらに、このシステムは、人間が多肢選択式の質問に答える方法にヒントを得て、ランキング メカニズムを使用して最終的な答えを決定します。具体的には、VoT は、各候補の回答について、常識的な知識に基づいてその可能性 (1 から 10) を評価し、対応する理由を提供するようにモデルに指示します。最終的な決定に基づいて、最高順位の候補者が最終回答となります。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

ステップ 5: 回答の検証

複雑なビデオタスクには通常、複雑な質問と回答が含まれ、推論プロセス全体に複数のリンクが含まれていることを考慮すると、前のステップで提供された回答を検証することが重要です。このシステムの基本的な検証の考え方は、回答 A が正しいと仮定し、その回答が入力された質問とビデオ コンテンツと矛盾するかどうかを 2 つの側面から遡及的に評価します:

  • 知覚検証: ピクセルが正しいかどうかを確認位置情報は、知覚的な観点からビデオで示されている事実と一致しています。
  • 認知的検証: 認知的観点からモデルにプロンプ​​トを送り、答えに固有の常識知識が推論の 3 番目のステップで推論された主な観察と矛盾するかどうかを判断します。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

最終的には、VoT が最も正しい結果を出力できることを確認してください。

タスクの定義とターゲットの特定から最終的な回答の検証まで、VoT 推論フレームワークの 5 つのステップにより、ビデオの理解と推論の精度と信頼性が包括的に向上し、複雑なビデオ タスクに強力なソリューションを提供します スキーム

B. 実験検証

1. 主な実験の比較

最初に、複数の複雑な VideoQA データセットをテストしました。実験結果は、VoT がすべてのテスト セットで SoTA ベースライン モデルよりも一貫して優れたパフォーマンスを達成し、従来の CoT のパフォーマンスを上回ることを証明しています。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

2. ゼロショットの結果

次に、著者はゼロショットでのさまざまなモデルのパフォーマンスを比較しました。従来の CoT と比較して、VoT のパフォーマンスの向上がより大きく、より明らかであることは注目に値します。さらに、2 つの複雑なビデオ質問応答タスクに対する強化効果は、比較的単純なタスク (MSR-VTT や ActivityNet など) よりも明らかです。これは主に、後者のデータセットが認知的推論 (例: 説明、予測) ではなく、知覚的推論 (例: ビデオの内容の説明) に特化しているためです。
最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論
3. 推論能力の詳細な分析

まず、著者は人間の評価を行った。図 7 の上の表に示されているように、VoT 推論フレームワークを使用した MotionEpic は、人間のパフォーマンスに匹敵する非常に優れた結果を達成しました。さらに、著者は 6 つの一般的なエラー ケースを要約し、最も一般的な 6 つのエラー カテゴリ間の違いを分析します。図の下部に示されているように、MotionEpic (VoT を使用) は、特にアクションのセマンティクスと常識の理解の点で、VideoLLaVA (CoT を使用) のエラー率を大幅に削減します。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

4. 推論プロセスの視覚的分析

最後に、著者はケース分析を通じてVoTの優位性を直感的に実証します。図 8 に示すように、ビデオ コンテンツは「トレーナーが子犬を導き、さまざまな障害物を乗り越える」という複雑なシーンを示しており、与えられた問題は抽象的かつ複雑であり、ビデオ自体を通じて単に認識するのではなく、常識を必要とします。直接。実験の結果、このシステムのみが正しい答えを与えることがわかりました。具体的には、コンテンツ認識レベルでは、VoT は STSG ベースのビデオ ローカライゼーションを通じて正確かつ確実な理解を保証し、動物が犬であると正しく解釈し、常識からそのシーンにはトレーナーが犬を訓練していると推測するという錯覚を防ぎます。次に、認知レベルで各選択肢を分析し、最良の答えを決定します。さらなる検証を通じて、結果はビデオの内容および事実の常識的な理解と一致していました。全体として、問題の分解を通じて、全体的な推論により各ステップの精度が大幅に向上し、プロセスの決定について説明可能な根拠が確保されます。

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

著者はさらに視覚的な分析も提供しています:

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論

以上が最初の Video-of-Thought 推論フレームワークがここにあります: 人間のように知覚から認知までの包括的なビデオ推論の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。