自從 Sora 發布以來,AI 視訊生成領域變得更加「熱鬧」了起來。過去幾個月,我們見證了即夢、Runway Gen-3、Luma AI、快手可靈輪番炸場。 和以往一眼就能識破是 AI 生成的模型不太一樣,這批視頻大模型可能是我們所見過的“最好的一屆”。 然而,視訊大語言模型(LLM)驚艷表現的背後離不開龐大且經過精細標註的視訊資料集,這需要花費相當高的成本。近期研究領域也湧現了一批無需額外訓練的創新方法:採用訓練好的圖像大語言模型,直接用於視訊任務的處理,這樣就繞過了「昂貴」的訓練過程。 此外,現有大多視頻LLM 存在兩個主要缺點:(1)它們只能處理有限幀數的視頻輸入,這使得模型難以捕捉視頻中細微的空間和時間內容;(2)它們缺少時間建模設計,而是簡單地將視訊特徵輸入到LLM 中,完全依賴LLM 對運動的建模能力。 針對以上問題,蘋果研究人員提出了 SlowFast-LLaVA(簡稱 SF-LLaVA)。此模型是基於位元組團隊開發的 LLaVA-NeXT 架構,無需額外微調,開箱即用。研究團隊受在動作辨識領域大獲成功的雙流網路的啟發,為視訊 LLM 設計了一套新穎的 SlowFast 輸入機制。 簡單來說,SF-LLaVA 將透過兩種不同的觀察速度(Slow 和 Fast)來理解影片中的細節和運動。 慢速路徑:低幀率提取特徵,同時盡可能保留空間細節(例如每8 幀保留24×24 個token) 快速路徑:高幀率運行,但用較大的空間池化步長降低視頻的分辨率,以模擬更大的時間上下文,更專注於理解動作的連貫性 這相當於模型擁有兩隻“眼睛”:一只慢慢看,注意看細節;另一隻快速看,注意看動作。這樣就解決了大多現有的視訊 LLM 的痛點,既能捕捉到詳細的空間語義,又能捕捉到更長的時間上下文。 論文連結:https://arxiv.org/pdf/2407.15841實驗結果顯示,SF-LLaVA 在所有基準測試中均以顯著的優勢超越了免收的優勢超越了現有訓練方法。與精心微調的 SFT 模型相比,SF-LLaVA 能達到相同性能,甚至更好。 模型架構如下圖所示,SF-LLaVA 遵循標準的免訓練影片 LLM 流程。它以視頻 V 和問題 Q 作為輸入,輸出對應的答案 A。 入力の場合、任意のサイズと長さの各ビデオから N フレームが均一にサンプリングされます (I = {I_1, I_2, ..., I_N})。選択したビデオ フレームの特別な組み合わせや配置は必要ありません。フレーム単位で独立に抽出された周波数特徴は F_v ∈ R^N×H×W です。ここで、H と W はそれぞれフレーム特徴の高さと幅です。 次のステップでは、低速パスと高速パスの両方で F_v をさらに処理し、それらを効果的なビデオ表現として結合します。低速パスは、F_v から のフレーム特徴を均一にサンプリングします。ここで、。 これまでの研究では、空間次元での適切なプーリングにより、ビデオ生成の効率と堅牢性が向上することがわかっています。したがって、研究チームは、F_v にステップ サイズ σ_h × σ_w のプーリング プロセスを適用して、最終特徴 (ここで , ) を取得しました。低速パスのプロセス全体を式 2 に示します。 高速パスは、ビデオの長距離の時間的コンテキストをできるだけ多くキャプチャするために、F_v のすべてのフレーム特徴を保存します。具体的には、研究チームは空間プーリング ステップ サイズ を使用して F_v を積極的にダウンサンプリングし、最終的な特徴 を取得します。研究チームは、高速パスが時間的コンテキストとモーション キューのシミュレーションに集中できるように、、 をセットアップしました。低速パスのプロセス全体を式 3 に示します。 最後に、集約されたビデオ特徴が取得されます: 、ここで flat と [, ] はそれぞれ平坦化と連結の操作を表します。式が示すように、 は低速パスと高速パスを分離するための特別なトークンを必要としません。 SF-LLaVA は合計 のビデオ トークンを使用します。ビデオ の視覚的特徴は、テキスト情報 (ユーザーからの質問など) と結合され、入力データとして大規模言語モデル (LLM) に送信されて処理されます。 SlowFastプロセスを式4に示します。 実験結果 研究チームは、SF-LLaVA の包括的なパフォーマンス評価を実施し、複数のビデオ質問応答タスクにおいて、現在の SOTA トレーニング不要モデル (IG-VLM や LLoVi など) と比較しました。さらに、ビデオ データセットに対して教師あり微調整 (SFT) された VideoLLaVA や PLLaVA などのビデオ LLM と比較しました。 オープンビデオ質問応答 以下の表に示すように、オープンビデオ質問応答タスクでは、SF-LLaVA はすべてのベンチマークで既存のトレーニング不要の手法よりも優れたパフォーマンスを示しています。具体的には、パラメータ サイズがそれぞれ 7B および 34B の LLM を装備した場合、SF-LLaVA は MSRVTT-QA では IGVLM より 2.1% および 5.0% 高く、TGIF-QA では 5.7% および 1.5% 高く、ActivityNet では 1.5% 高くなります。 QAでは2.0%、0.8%上昇。 微調整された SFT 手法と比較しても、SF-LLaVA はほとんどのベンチマークで同等のパフォーマンスを示しますが、ActivityNet-QA ベンチマークでのみ、PLLaVA と LLaVA-NeXT-VideoDPO が One チップよりわずかに優れています。 多肢選択式ビデオ Q&A 以下の表からわかるように、SF-LLaVA は、すべてのベンチマークにおいて多肢選択式ビデオ Q&A において他のトレーニング不要の手法よりも優れています。複雑な長期推論を必要とする EgoSchema データセットでは、SF-LLaVA7B および 34B バージョンは、IG-VLM モデルよりもそれぞれ 11.4% および 2.2% 高いスコアを示しました。 VideoTree は GPT-4 に基づく独自モデルであるためベンチマークでリードしていますが、パフォーマンスはオープンソース LLM よりもはるかに優れています。 SF-LLaVA 34B モデルは、SFT 手法と比較して EgoSchema でも優れた結果を達成しており、長いビデオの処理における SlowFast 設計の能力を裏付けています。表 3 に示すように、テキスト生成ビデオのタスクに関して、SF-LLaVA はいくつかの利点を示しています。 SF-LLaVA-34B は、全体的なパフォーマンスにおいて、トレーニングなしのすべてのベンチマークを上回りました。ただし、ディテール指向の点では、SF-LLaVA は LLaVA-NeXT-Image よりわずかに劣ります。 SlowFast 設計に基づいた SF-LLaVA は、より少ない視覚トークンでより長い時間的コンテキストをカバーできるため、時間的理解タスクで特に優れたパフォーマンスを発揮します。 さらに、SF-LLaVA-34B は、Vincent ビデオ パフォーマンスの点でもほとんどの SFT 方式を上回っています。 詳細については、原論文を参照してください。