用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

PHPz

Mar 11, 2024 pm 01:10 PM

框架ai數據

在影片理解這一領域，儘管多模態模型在短視頻分析上取得了突破性進展，展現出了較強的理解能力，但當它們面對電影級別的長影片時，卻顯得力不從心。因而，長影片的分析與理解，特別是對於長達數小時電影內容的理解，成為了當前的巨大挑戰。

模型在理解長影片方面的困難主要源自於長影片資料資源的不足，這些資源在品質和多樣性上有缺陷。此外，採集和標註這些數據需要大量的工作。

面對這樣的難題，騰訊和復旦大學的研究團隊提出了 MovieLLM，一個創新的 AI 生成框架。 MovieLLM 採用了創新性的方法，不僅可以產生高品質、多樣化的視訊數據，而且能自動產生大量與之相關的問答數據集，極大地豐富了數據的維度和深度，同時整個自動化的過程也極大地減少了人力的投入。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

論文網址：https://arxiv.org/abs/2403.01422
#主頁網址：https://deaddawn.github.io/MovieLLM/

這一重要的進展不僅提升了模型對複雜視訊敘事的理解水平，也增強了模型在處理長達數小時的電影內容時的分析能力。同時，它克服了現有資料集在稀缺性和偏見方面的限制，為對超長影片內容的理解提供了全新且有效的途徑。

MovieLLM巧妙地利用了GPT-4和擴散模型的強大生成能力，採用了"story expanding"的連續幀描述生成策略。透過"textual inversion"的方法來指導擴散模型產生與文字描述一致的場景影像，從而打造完整電影的連續畫面。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

方法概述

#MovieLLM將GPT-4和擴散模型結合，以提高大模型對長影片的理解。這種巧妙的結合產生了高品質、多樣性的長視訊資料和QA問答，有助於增強模型的生成能力。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

MovieLLM 主要包含三個階段：

##1. 電影情節生成。

MovieLLM 不依賴網路或現有資料集來產生情節，而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素，如主題、概述和風格，引導 GPT-4 產生針對後續生成過程量身定制的電影級關鍵影格描述。

2. 風格固定過程。

MovieLLM 巧妙地使用「textual inversion」技術，將劇本中產生的風格描述固定在擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時，產生具有固定風格的場景，並保持多樣性。

3. 影片指令資料產生。

在前兩步驟的基礎上，已經獲得了固定的風格嵌入和關鍵影格描述。基於這些，MovieLLM 利用風格嵌入指導擴散模型產生符合關鍵影格描述的關鍵影格並根據影片情節逐步產生各種指令性問答對。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

經過上述步驟，MovieLLM 就創造了高品質、風格多樣的、連貫的電影連續影格以及對應的問答對資料。電影資料種類的詳細分佈如下：

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成 #

实验结果

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调，本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解，当前并没有工作提出测试基准，因此本文还提出了一个测试长视频理解能力的基准。

虽然 MovieLLM 并没有特别地去构造短视频数据进行训练，但通过训练，仍然观察到了在各类短视频基准上的性能提升，结果如下：

在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型，有显著提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

在基于视频生成的性能基准上，在五个测评方面都获得了性能提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

在长视频理解方面，通过 MovieLLM 的训练，模型在概括、剧情以及时序三个方面的理解都有显著提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

此外，MovieLLM 相较于其他类似的可固定风格生成图片的方法，在生成质量上也有着较好的结果。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

总之，MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度，提高了生成内容的控制性和多样性。同时，MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力，为其他领域采纳类似的数据生成方法提供了宝贵的参考。

对此研究感兴趣的读者可以阅读论文原文，了解更多研究内容。

以上是用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SAP NetWeaver Server Adapter for Eclipse

用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

方法概述

实验结果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse

DVWA

SublimeText3 英文版

記事本++7.3.1

Atom編輯器mac版下載

熱門話題