評估清華大學研發的 LLM4VG 基準在影片時序定位的表現

評估清華大學研發的 LLM4VG 基準在影片時序定位的表現

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 04, 2024 pm 10:38 PM

人工智慧清華大學

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

12 月29 日訊息，大語言模型（LLM）的觸角已經從單純的自然語言處理，擴展到文字、音訊、視訊等多模態領域，而其中一項關鍵就是影片時序定位（Video Grounding，VG）。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

VG任務的目標是根據給定的查詢，定位目標影片段的起始和結束時間。這個任務的核心挑戰在於準確地確定時間邊界。

清華大學研究團隊近日推出了「LLM4VG」基準，這是專門設計用於評估 LLM 在 VG 任務中的表現。

在考慮此基準的時候，有兩種主要的策略被考慮了。第一種策略是直接在文字視訊資料集（VidLLM）上訓練視訊語言模型（LLM）。這種方法是透過在大規模的視訊資料集上進行訓練，來學習視訊和語言之間的關聯，以提高模型的效能。第二種策略是將傳統的語言模型（LLM）與預先訓練的視覺模型結合。這種方法是基於預先訓練的視覺模型，將影片的視覺特

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

在一種策略中，VidLLM模型直接處理影片內容和VG任務指令，並根據其訓練輸出預測文字-視訊之間的關係。

第二種策略則更加複雜，它涉及LLM（Language and Vision Models）和視覺描述模型的運用。這些模型能夠產生與VG（Video Game）任務指令結合的影片內容的文字描述，而這些描述經過精心設計的提示來實現。

這些提示是經過精心設計的，它們的目的是將VG的指令和提供的視覺描述有效地結合起來，以幫助LLM處理和理解與任務相關的影片內容。

據觀察，VidLLM 儘管直接在視訊內容上進行訓練，但在實現令人滿意的 VG 性能方面仍然存在很大差距。這項發現強調了在訓練中納入更多與時間相關的視訊任務以提高表現的必要性。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

而第二個策略優於 VidLLM，為未來的研究指明了一個有希望的方向。此策略主要限制在視覺模型的限制和提示詞的設計，因此在能夠產生詳細且準確的影片描述後，更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

總之，該研究對 LLM 在 VG 任務中的應用進行了開創性的評估，強調了在模型訓練和提示設計中需要更複雜的方法。

本站附上論文參考網址：https://www.php.cn/link/a7fd9fd835f54f0f28003c679fd44b39

#

以上是評估清華大學研發的 LLM4VG 基準在影片時序定位的表現的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版，非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

熱門話題

gmail信箱登陸入口在哪裡

7488

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

51

19

NYT連接提示和答案

19

40