近期,AI 視訊技術領域備受關注,尤其是OpenAI推出的Sora視訊生成大模型引起了廣泛討論。同時,在影片剪輯領域,Agent等大型AI模型也展現出強大的實力。
儘管自然語言被用於處理影片剪輯任務,使用者可以直接表達意圖而無需手動操作。然而,目前大多數影片剪輯工具仍然需要大量手動操作,並且缺乏個人化的上下文支援。這導致用戶需要自行解決複雜的視訊剪輯問題。
關鍵在於如何設計一個可以充當協作者、並在剪輯過程中不斷協助使用者的影片剪輯工具?在本文中,來自多倫多大學、 Meta(Reality Labs Research)、加州大學聖迭戈分校的研究者提出利用大語言模型(LLM)的多功能語言能力來進行視頻剪輯,並探討了未來的視頻剪輯範式,從而減少與手動視訊剪輯過程的阻礙。
#研究者開發了一個名為LAVE的影片剪輯工具,它整合了LLM提供的多項語言增強功能。 LAVE引入了一個基於LLM的智慧規劃和執行系統,能夠解釋使用者的自由格式語言指令,規劃並執行相關操作,以達成使用者的影片剪輯目標。這個智慧系統能夠提供概念化幫助,如創意腦力激盪和影片素材概覽,並提供操作協助,包括基於語意的影片檢索、分鏡和剪輯修剪等功能。
為了順利進行這些智能體的操作,LAVE 使用了視覺語言模型(VLM)來自動產生影片視覺效果的語言描述。這些視覺敘述使得LLM能夠理解影片內容,並利用他們的語言能力來協助使用者完成剪輯。此外,LAVE 提供了兩種互動視訊剪輯模式,即智能體協助和直接操作。這種雙重模式為使用者提供了更大的靈活性,讓他們可以根據需要改進智能體的操作。
至於 LAVE 的剪輯效果如何?研究者對包括剪輯新手和老手在內的 8 名參與者進行了用戶研究,結果表明,參與者可以使用 LAVE 製作出令人滿意的 AI 協作影片。
值得關注的是,這項研究的六位作者中有5 位華人,包括一作、多倫多大學電腦科學博士生Bryan Wang、Meta 研究科學家Yuliang Li、Zhaoyang Lv和Yan Xu、加州大學聖迭戈分校助理教授Haijun Xia。
我們先來看 LAVE 的系統設計,具體如下圖 1 所示。
LAVE 的使用者介麵包含三個主要元件,分別如下:
設計邏輯是這樣的:當使用者與智慧體互動時,訊息交換會在聊天 UI 中顯示。當進行相關操作時,智能體會對影片庫和剪輯時間軸進行變更。此外,使用者可以使用遊標直接對影片庫和時間軸進行操作,類似於傳統的剪輯介面。
語言增強影片庫
語言增強影片庫的功能如下圖3 所示。
與傳統工具一樣,該功能允許剪輯播放,但會提供視覺敘述,即為每個影片自動產生文字描述,包括語義標題和摘要。這些標題可以幫助理解和索引剪輯,摘要提供了每個剪輯的視覺內容的概述,幫助使用者形成自身編輯專案的故事情節。每個影片下方都會顯示標題和時長。
此外,LAVE 使用戶可以利用語義語言查詢來搜尋視頻,檢索到的影片會在影片庫中顯示並按相關性排序。這項功能必須透過剪輯智能體來執行。
影片剪輯時間軸
#從影片庫中選取影片並將它新增至剪輯時間軸後,它們會顯示在介面底部的影片剪輯時間軸上,如下圖2 所示。其中,時間軸上的每個剪輯都由一個框表示,並顯示三個縮圖幀,分別是開始幀、中間幀和結束幀。
在 LAVE 系統中,每個縮圖幀代表剪輯中一秒鐘的素材。與影片庫一樣,每個剪輯的標題和描述都會提供。 LAVE 中的剪輯時間軸具有兩個關鍵功能,即剪輯排序和修剪。
其中在時間軸上進行剪輯排序是影片剪輯中的常見任務,對於創建連貫的敘述非常重要。 LAVE 支援兩種排序方法,一是基於 LLM 的排序利用視訊剪輯智能體的故事板功能進行操作,二是手動排序透過使用者直接操作來排序,拖放每個視訊框來設定剪輯出現的順序。
修剪在影片剪輯中也很重要,可以突出顯示關鍵片段並刪除多餘內容。在修剪時,使用者雙擊時間軸中的剪輯,打開一個顯示一秒鐘幀的彈出窗口,如下圖 4 所示。
影片剪輯智慧體
LAVE的視訊剪輯智能體是一個基於聊天的元件,可促進使用者和基於LLM 的智能體之間的互動。與命令列工具不同,使用者可以使用自由格式的語言與智慧體互動。此智能體利用 LLM 的語言智慧提供影片剪輯輔助,並提供具體的回應,以在整個編輯過程中指導和幫助使用者。 LAVE 的智能體協助功能是透過智能體操作提供的,每個智能體操作都涉及執行系統支援的編輯功能。
總的來說,LAVE 提供的功能涵蓋了從構思和預先規劃到實際編輯作業的整個工作流程,但該系統並沒有強制規定嚴格的工作流程。使用者可以靈活地利用與其編輯目標相符的功能子集。例如,具有清晰編輯願景和明確故事情節的使用者可能會繞過構思階段並直接投入編輯。
該研究採用OpenAI 的GPT-4 來闡述LAVE 後端系統的設計,主要包括智能體設計、實作由LLM 驅動的編輯功能兩個面向。
智能體設計
#該研究利用LLM(即GPT-4)的多種語言能力(包括推理、規劃和說故事)建構了LAVE 智能體。
LAVE 智能體有兩種狀態:規劃與執行。這種設定有兩個主要好處:
如下圖 6 所示,該 pipeline 首先根據使用者輸入建立行動規劃。然後,該規劃從文字描述轉換為函數調用,隨後執行相應的函數。
實作LLM 驅動的編輯功能
為了幫助用戶完成視頻編輯任務,LAVE 主要支援五種由LLM 驅動的功能,包括:
#其中前四個可透過智慧體存取(圖5),而剪輯修剪功能可透過雙擊時間軸中的剪輯,開啟一個顯示一秒幀的彈出視窗(圖4)。
其中,基於語言的視訊檢索是透過向量儲存資料庫實現的,其餘的則透過 LLM 提示工程(prompt engineering)來實現。所有功能都建立在自動產生的原始素材語言描述之上,包括影片庫中每個剪輯的標題和摘要(圖 3)。研究團隊將這些影片的文字描述稱為視覺敘述(visual narration)。
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是在Sora引爆影片生成時,Meta開始用Agent自動剪影片了,華人作者主導的詳細內容。更多資訊請關注PHP中文網其他相關文章!