在影片理解這一領域,儘管多模態模型在短視頻分析上取得了突破性進展,展現出了較強的理解能力,但當它們面對電影級別的長影片時,卻顯得力不從心。因而,長影片的分析與理解,特別是對於長達數小時電影內容的理解,成為了當前的巨大挑戰。
模型在理解長影片方面的困難主要源自於長影片資料資源的不足,這些資源在品質和多樣性上有缺陷。此外,採集和標註這些數據需要大量的工作。
面對這樣的難題,騰訊和復旦大學的研究團隊提出了 MovieLLM,一個創新的 AI 生成框架。 MovieLLM 採用了創新性的方法,不僅可以產生高品質、多樣化的視訊數據,而且能自動產生大量與之相關的問答數據集,極大地豐富了數據的維度和深度,同時整個自動化的過程也極大地減少了人力的投入。
- 論文網址:https://arxiv.org/abs/2403.01422
- #主頁網址:https://deaddawn.github.io/MovieLLM/
這一重要的進展不僅提升了模型對複雜視訊敘事的理解水平,也增強了模型在處理長達數小時的電影內容時的分析能力。同時,它克服了現有資料集在稀缺性和偏見方面的限制,為對超長影片內容的理解提供了全新且有效的途徑。
MovieLLM巧妙地利用了GPT-4和擴散模型的強大生成能力,採用了"story expanding"的連續幀描述生成策略。透過"textual inversion"的方法來指導擴散模型產生與文字描述一致的場景影像,從而打造完整電影的連續畫面。
方法概述
#MovieLLM將GPT-4和擴散模型結合,以提高大模型對長影片的理解。這種巧妙的結合產生了高品質、多樣性的長視訊資料和QA問答,有助於增強模型的生成能力。
MovieLLM 主要包含三個階段:
##1. 電影情節生成。
MovieLLM 不依賴網路或現有資料集來產生情節,而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素,如主題、概述和風格,引導 GPT-4 產生針對後續生成過程量身定制的電影級關鍵影格描述。
2. 風格固定過程。
MovieLLM 巧妙地使用「textual inversion」技術,將劇本中產生的風格描述固定在擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時,產生具有固定風格的場景,並保持多樣性。
3. 影片指令資料產生。
在前兩步驟的基礎上,已經獲得了固定的風格嵌入和關鍵影格描述。基於這些,MovieLLM 利用風格嵌入指導擴散模型產生符合關鍵影格描述的關鍵影格並根據影片情節逐步產生各種指令性問答對。
經過上述步驟,MovieLLM 就創造了高品質、風格多樣的、連貫的電影連續影格以及對應的問答對資料。電影資料種類的詳細分佈如下:
#
实验结果
通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解,当前并没有工作提出测试基准,因此本文还提出了一个测试长视频理解能力的基准。
虽然 MovieLLM 并没有特别地去构造短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提升,结果如下:
在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型,有显著提升。
在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。
在长视频理解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的理解都有显著提升。
此外,MovieLLM 相较于其他类似的可固定风格生成图片的方法,在生成质量上也有着较好的结果。
总之,MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度,提高了生成内容的控制性和多样性。同时,MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力,为其他领域采纳类似的数据生成方法提供了宝贵的参考。
对此研究感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上是用AI短視頻'反哺”長視頻理解,騰訊MovieLLM框架瞄準電影級連續幀生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器