在影片理解這一領域,儘管多模態模型在短視頻分析上取得了突破性進展,展現出了較強的理解能力,但當它們面對電影級別的長影片時,卻顯得力不從心。因而,長影片的分析與理解,特別是對於長達數小時電影內容的理解,成為了當前的巨大挑戰。
模型在理解長影片方面的困難主要源自於長影片資料資源的不足,這些資源在品質和多樣性上有缺陷。此外,採集和標註這些數據需要大量的工作。
面對這樣的難題,騰訊和復旦大學的研究團隊提出了 MovieLLM,一個創新的 AI 生成框架。 MovieLLM 採用了創新性的方法,不僅可以產生高品質、多樣化的視訊數據,而且能自動產生大量與之相關的問答數據集,極大地豐富了數據的維度和深度,同時整個自動化的過程也極大地減少了人力的投入。
這一重要的進展不僅提升了模型對複雜視訊敘事的理解水平,也增強了模型在處理長達數小時的電影內容時的分析能力。同時,它克服了現有資料集在稀缺性和偏見方面的限制,為對超長影片內容的理解提供了全新且有效的途徑。
MovieLLM巧妙地利用了GPT-4和擴散模型的強大生成能力,採用了"story expanding"的連續幀描述生成策略。透過"textual inversion"的方法來指導擴散模型產生與文字描述一致的場景影像,從而打造完整電影的連續畫面。
#MovieLLM將GPT-4和擴散模型結合,以提高大模型對長影片的理解。這種巧妙的結合產生了高品質、多樣性的長視訊資料和QA問答,有助於增強模型的生成能力。
MovieLLM 主要包含三個階段:
##1. 電影情節生成。
MovieLLM 不依賴網路或現有資料集來產生情節,而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素,如主題、概述和風格,引導 GPT-4 產生針對後續生成過程量身定制的電影級關鍵影格描述。
2. 風格固定過程。
MovieLLM 巧妙地使用「textual inversion」技術,將劇本中產生的風格描述固定在擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時,產生具有固定風格的場景,並保持多樣性。
3. 影片指令資料產生。
在前兩步驟的基礎上,已經獲得了固定的風格嵌入和關鍵影格描述。基於這些,MovieLLM 利用風格嵌入指導擴散模型產生符合關鍵影格描述的關鍵影格並根據影片情節逐步產生各種指令性問答對。
經過上述步驟,MovieLLM 就創造了高品質、風格多樣的、連貫的電影連續影格以及對應的問答對資料。電影資料種類的詳細分佈如下:
#
通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解,当前并没有工作提出测试基准,因此本文还提出了一个测试长视频理解能力的基准。
虽然 MovieLLM 并没有特别地去构造短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提升,结果如下:
在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型,有显著提升。
在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。
在长视频理解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的理解都有显著提升。
此外,MovieLLM 相较于其他类似的可固定风格生成图片的方法,在生成质量上也有着较好的结果。
总之,MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度,提高了生成内容的控制性和多样性。同时,MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力,为其他领域采纳类似的数据生成方法提供了宝贵的参考。
对此研究感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上是用AI短視頻'反哺”長視頻理解,騰訊MovieLLM框架瞄準電影級連續幀生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!