在影片理解這一領域,儘管多模態模型在短視頻分析上取得了突破性進展,展現出了較強的理解能力,但當它們面對電影級別的長影片時,卻顯得力不從心。因而,長影片的分析與理解,特別是對於長達數小時電影內容的理解,成為了當前的巨大挑戰。
模型在理解長影片方面的困難主要源自於長影片資料資源的不足,這些資源在品質和多樣性上有缺陷。此外,採集和標註這些數據需要大量的工作。
面對這樣的難題,騰訊和復旦大學的研究團隊提出了 MovieLLM,一個創新的 AI 生成框架。 MovieLLM 採用了創新性的方法,不僅可以產生高品質、多樣化的視訊數據,而且能自動產生大量與之相關的問答數據集,極大地豐富了數據的維度和深度,同時整個自動化的過程也極大地減少了人力的投入。
- 論文網址:https://arxiv.org/abs/2403.01422
- #主頁網址:https://deaddawn.github.io/MovieLLM/
這一重要的進展不僅提升了模型對複雜視訊敘事的理解水平,也增強了模型在處理長達數小時的電影內容時的分析能力。同時,它克服了現有資料集在稀缺性和偏見方面的限制,為對超長影片內容的理解提供了全新且有效的途徑。
MovieLLM巧妙地利用了GPT-4和擴散模型的強大生成能力,採用了"story expanding"的連續幀描述生成策略。透過"textual inversion"的方法來指導擴散模型產生與文字描述一致的場景影像,從而打造完整電影的連續畫面。
方法概述
#MovieLLM將GPT-4和擴散模型結合,以提高大模型對長影片的理解。這種巧妙的結合產生了高品質、多樣性的長視訊資料和QA問答,有助於增強模型的生成能力。
MovieLLM 主要包含三個階段:
##1. 電影情節生成。
MovieLLM 不依賴網路或現有資料集來產生情節,而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素,如主題、概述和風格,引導 GPT-4 產生針對後續生成過程量身定制的電影級關鍵影格描述。
2. 風格固定過程。
MovieLLM 巧妙地使用「textual inversion」技術,將劇本中產生的風格描述固定在擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時,產生具有固定風格的場景,並保持多樣性。
3. 影片指令資料產生。
在前兩步驟的基礎上,已經獲得了固定的風格嵌入和關鍵影格描述。基於這些,MovieLLM 利用風格嵌入指導擴散模型產生符合關鍵影格描述的關鍵影格並根據影片情節逐步產生各種指令性問答對。
經過上述步驟,MovieLLM 就創造了高品質、風格多樣的、連貫的電影連續影格以及對應的問答對資料。電影資料種類的詳細分佈如下:
#
实验结果
通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解,当前并没有工作提出测试基准,因此本文还提出了一个测试长视频理解能力的基准。
虽然 MovieLLM 并没有特别地去构造短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提升,结果如下:
在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型,有显著提升。
在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。
在长视频理解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的理解都有显著提升。
此外,MovieLLM 相较于其他类似的可固定风格生成图片的方法,在生成质量上也有着较好的结果。
总之,MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度,提高了生成内容的控制性和多样性。同时,MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力,为其他领域采纳类似的数据生成方法提供了宝贵的参考。
对此研究感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上是用AI短視頻'反哺”長視頻理解,騰訊MovieLLM框架瞄準電影級連續幀生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver Mac版
視覺化網頁開發工具