首頁  >  文章  >  科技週邊  >  評估清華大學研發的 LLM4VG 基準在影片時序定位的表現

評估清華大學研發的 LLM4VG 基準在影片時序定位的表現

WBOY
WBOY轉載
2024-01-04 22:38:141080瀏覽

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

12 月29 日訊息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文字、音訊、視訊等多模態領域,而其中一項關鍵就是影片時序定位(Video Grounding,VG)。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

VG任務的目標是根據給定的查詢,定位目標影片段的起始和結束時間。這個任務的核心挑戰在於準確地確定時間邊界。

清華大學研究團隊近日推出了「LLM4VG」基準,這是專門設計用於評估 LLM 在 VG 任務中的表現。

在考慮此基準的時候,有兩種主要的策略被考慮了。第一種策略是直接在文字視訊資料集(VidLLM)上訓練視訊語言模型(LLM)。這種方法是透過在大規模的視訊資料集上進行訓練,來學習視訊和語言之間的關聯,以提高模型的效能。 第二種策略是將傳統的語言模型(LLM)與預先訓練的視覺模型結合。這種方法是基於預先訓練的視覺模型,將影片的視覺特

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

在一種策略中,VidLLM模型直接處理影片內容和VG任務指令,並根據其訓練輸出預測文字-視訊之間的關係。

第二種策略則更加複雜,它涉及LLM(Language and Vision Models)和視覺描述模型的運用。這些模型能夠產生與VG(Video Game)任務指令結合的影片內容的文字描述,而這些描述經過精心設計的提示來實現。

這些提示是經過精心設計的,它們的目的是將VG的指令和提供的視覺描述有效地結合起來,以幫助LLM處理和理解與任務​​相關的影片內容。

據觀察,VidLLM 儘管直接在視訊內容上進行訓練,但在實現令人滿意的 VG 性能方面仍然存在很大差距。這項發現強調了在訓練中納入更多與時間相關的視訊任務以提高表現的必要性。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

而第二個策略優於 VidLLM,為未來的研究指明了一個有希望的方向。此策略主要限制在視覺模型的限制和提示詞的設計,因此在能夠產生詳細且準確的影片描述後,更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

總之,該研究對 LLM 在 VG 任務中的應用進行了開創性的評估,強調了在模型訓練和提示設計中需要更複雜的方法。

本站附上論文參考網址:https://www.php.cn/link/a7fd9fd835f54f0f28003c679fd44b39

#

以上是評估清華大學研發的 LLM4VG 基準在影片時序定位的表現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除