搜尋
首頁科技週邊人工智慧給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

自從 Sora 發布以來,AI 視訊生成領域變得更加「熱鬧」了起來。過去幾個月,我們見證了即夢、Runway Gen-3、Luma AI、快手可靈輪番炸場。

和以往一眼就能識破是 AI 生成的模型不太一樣,這批視頻大模型可能是我們所見過的“最好的一屆”。

然而,視訊大語言模型(LLM)驚艷表現的背後離不開龐大且經過精細標註的視訊資料集,這需要花費相當高的成本。近期研究領域也湧現了一批無需額外訓練的創新方法:採用訓練好的圖像大語言模型,直接用於視訊任務的處理,這樣就繞過了「昂貴」的訓練過程。

此外,現有大多視頻LLM 存在兩個主要缺點:(1)它們只能處理有限幀數的視頻輸入,這使得模型難以捕捉視頻中細微的空間和時間內容;(2)它們缺少時間建模設計,而是簡單地將視訊特徵輸入到LLM 中,完全依賴LLM 對運動的建模能力。

針對以上問題,蘋果研究人員提出了 SlowFast-LLaVA(簡稱 SF-LLaVA)。此模型是基於位元組團隊開發的 LLaVA-NeXT 架構,無需額外微調,開箱即用。研究團隊受在動作辨識領域大獲成功的雙流網路的啟發,為視訊 LLM 設計了一套新穎的 SlowFast 輸入機制。

簡單來說,SF-LLaVA 將透過兩種不同的觀察速度(Slow 和 Fast)來理解影片中的細節和運動。

  • 慢速路徑:低幀率提取特徵,同時盡可能保留空間細節(例如每8 幀保留24×24 個token)
  • 快速路徑:高幀率運行,但用較大的空間池化步長降低視頻的分辨率,以模擬更大的時間上下文,更專注於理解動作的連貫性

這相當於模型擁有兩隻“眼睛”:一只慢慢看,注意看細節;另一隻快速看,注意看動作。這樣就解決了大多現有的視訊 LLM 的痛點,既能捕捉到詳細的空間語義,又能捕捉到更長的時間上下文。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

論文連結:https://arxiv.org/pdf/2407.15841

實驗結果顯示,SF-LLaVA 在所有基準測試中均以顯著的優勢超越了免收的優勢超越了現有訓練方法。與精心微調的 SFT 模型相比,SF-LLaVA 能達到相同性能,甚至更好。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

模型架構

如下圖所示,SF-LLaVA 遵循標準的免訓練影片 LLM 流程。它以視頻 V 和問題 Q 作為輸入,輸出對應的答案 A。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

入力の場合、任意のサイズと長さの各ビデオから N フレームが均一にサンプリングされます (I = {I_1, I_2, ..., I_N})。選択したビデオ フレームの特別な組み合わせや配置は必要ありません。フレーム単位で独立に抽出された周波数特徴は F_v ∈ R^N×H×W です。ここで、H と W はそれぞれフレーム特徴の高さと幅です。

次のステップでは、低速パスと高速パスの両方で F_v をさらに処理し、それらを効果的なビデオ表現として結合します。低速パスは、F_v から 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA のフレーム特徴を均一にサンプリングします。ここで、給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

これまでの研究では、空間次元での適切なプーリングにより、ビデオ生成の効率と堅牢性が向上することがわかっています。したがって、研究チームは、F_v にステップ サイズ σ_h × σ_w のプーリング プロセスを適用して、最終特徴 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA (ここで 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA, 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA) を取得しました。低速パスのプロセス全体を式 2 に示します。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

高速パスは、ビデオの長距離の時間的コンテキストをできるだけ多くキャプチャするために、F_v のすべてのフレーム特徴を保存します。具体的には、研究チームは空間プーリング ステップ サイズ 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA を使用して F_v を積極的にダウンサンプリングし、最終的な特徴 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA を取得します。研究チームは、高速パスが時間的コンテキストとモーション キューのシミュレーションに集中できるように、給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA をセットアップしました。低速パスのプロセス全体を式 3 に示します。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

最後に、集約されたビデオ特徴が取得されます: 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA、ここで flat と [, ] はそれぞれ平坦化と連結の操作を表します。式が示すように、給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA は低速パスと高速パスを分離するための特別なトークンを必要としません。 SF-LLaVA は合計 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA のビデオ トークンを使用します。ビデオ 給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA の視覚的特徴は、テキスト情報 (ユーザーからの質問など) と結合され、入力データとして大規模言語モデル (LLM) に送信されて処理されます。

SlowFastプロセスを式4に示します。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

実験結果

研究チームは、SF-LLaVA の包括的なパフォーマンス評価を実施し、複数のビデオ質問応答タスクにおいて、現在の SOTA トレーニング不要モデル (IG-VLM や LLoVi など) と比較しました。さらに、ビデオ データセットに対して教師あり微調整 (SFT) された VideoLLaVA や PLLaVA などのビデオ LLM と比較しました。

オープンビデオ質問応答

以下の表に示すように、オープンビデオ質問応答タスクでは、SF-LLaVA はすべてのベンチマークで既存のトレーニング不要の手法よりも優れたパフォーマンスを示しています。具体的には、パラメータ サイズがそれぞれ 7B および 34B の LLM を装備した場合、SF-LLaVA は MSRVTT-QA では IGVLM より 2.1% および 5.0% 高く、TGIF-QA では 5.7% および 1.5% 高く、ActivityNet では 1.5% 高くなります。 QAでは2.0%、0.8%上昇。

微調整された SFT 手法と比較しても、SF-LLaVA はほとんどのベンチマークで同等のパフォーマンスを示しますが、ActivityNet-QA ベンチマークでのみ、PLLaVA と LLaVA-NeXT-VideoDPO が One チップよりわずかに優れています。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA

多肢選択式ビデオ Q&A

以下の表からわかるように、SF-LLaVA は、すべてのベンチマークにおいて多肢選択式ビデオ Q&A において他のトレーニング不要の手法よりも優れています。複雑な長期推論を必要とする EgoSchema データセットでは、SF-LLaVA7B および 34B バージョンは、IG-VLM モデルよりもそれぞれ 11.4% および 2.2% 高いスコアを示しました。

VideoTree は GPT-4 に基づく独自モデルであるためベンチマークでリードしていますが、パフォーマンスはオープンソース LLM よりもはるかに優れています。 SF-LLaVA 34B モデルは、SFT 手法と比較して EgoSchema でも優れた結果を達成しており、長いビデオの処理における SlowFast 設計の能力を裏付けています。表 3 に示すように、テキスト生成ビデオのタスクに関して、SF-LLaVA はいくつかの利点を示しています。 SF-LLaVA-34B は、全体的なパフォーマンスにおいて、トレーニングなしのすべてのベンチマークを上回りました。ただし、ディテール指向の点では、SF-LLaVA は LLaVA-NeXT-Image よりわずかに劣ります。 SlowFast 設計に基づいた SF-LLaVA は、より少ない視覚トークンでより長い時間的コンテキストをカバーできるため、時間的理解タスクで特に優れたパフォーマンスを発揮します。

給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA さらに、SF-LLaVA-34B は、Vincent ビデオ パフォーマンスの点でもほとんどの SFT 方式を上回っています。

詳細については、原論文を参照してください。

以上是給視頻模型安上快慢兩隻眼睛,蘋果免訓練新方法秒了一切SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器