首頁 >科技週邊 >人工智慧 >兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

WBOY
WBOY轉載
2024-03-27 15:17:001117瀏覽

廣大的戰場,風暴兵在奔跑…

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

prompt:Wide shot of battlefield, stormtroopers running...

這段時長達1200幀的2分鐘影片是由文字產生影片(text-to-video)模型產生的。儘管AI的痕跡仍然顯而易見,但其中的人物和場景展現出相當不錯的一致性。

這是如何辦到的呢?要知道,雖然近些年文生視訊技術的生成品質和文字對齊品質都已經相當出色,但大多數現有方法都聚焦於生成短影片(通常是 16 或 24 幀長度)。然而,適用於短視訊的現有方法通常無法用於長視訊(≥ 64 幀)。

即使是產生短序列,通常也需要成本高昂的訓練,例如訓練步數超過 260K,批次大小超過 4500。如果不在更長的視頻上進行訓練,透過短視頻生成器來製作長視頻,得到的長視頻通常質量不佳。而現有的自回歸方法(透過使用短視頻後幾幀生成新的短視頻,進而合成長視頻)也存在場景切換不一致等一些問題。

為了彌補現有方法的不足,Picsart AI Research等多個機構聯合提出了一種新的文生視訊方法:StreamingT2V。這種方法採用自回歸技術,並結合長短期記憶模組,使其能夠產生時間連貫性強的長影片。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

  • 論文標題:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
  • #論文網址:https://arxiv.org/abs/2403.14773
  • 計畫網址:https://streamingt2v.github.io/

#如下是一段600 幀1 分鐘的影片產生結果,可以看到蜜蜂和花朵都有非常出色的一致性:

因此,團隊提出了條件注意力模組(CAM)。 CAM利用其註意力機制,能夠有效地整合先前幀的資訊來產生新的幀,並且能夠自如地處理新幀中的運動情況,而不受先前幀結構或形狀的限制。

而為了解決生成的影片中人與物外觀變化的問題,團隊又提出了外觀保留模組(APM):其可從一個初始影像(錨定幀)提取物件或全域場景的外觀訊息,並使用該資訊調節所有視訊區塊的視訊生成過程。

為了進一步提升長影片產生的品質和分辨率,該團隊針對自回歸生成任務對一個影片增強模型進行了改進。為此,該團隊選擇了一個高解析度文生視訊模型並使用了 SDEdit 方法來提升連續 24 幀(其中有 8 幀重疊幀)視訊區塊的品質。

為了讓視訊區塊增強過渡變得平滑,他們也設計了一種隨機混合方法,能以無縫方式混合重疊的增強過的視訊區塊。

方法

首先,產生5 秒長的256 × 256 解析度的影片(16fps),然後將其增強至更高的分辨率(720 × 720)。圖 2 展示了其完整的工作流程。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

長影片產生部分由初始化階段(Initialization Stage)和串流文生視訊階段(Streaming T2V Stage)構成。

其中,初始化階段是使用一個預先訓練的文生視訊模型(例如可以使用Modelscope)來產生第一個16 幀的視訊區塊;而串流文生視訊階段則是以自回歸方式產生後續幀的新內容。

對於自回歸過程(見圖 3),該團隊新提出的 CAM 可以利用先前視訊區塊最後 8 幀的短期訊息,實現區塊之間的無縫切換。另外,他們還會使用新提出的 APM 模組來提取一張固定錨定幀的長期訊息,使自回歸過程能穩健地應對事物和場景細節在生成過程中的變化。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

在生成得到了長影片(80、240、600、1200 或更多影格)之後,他們再透過串流優化階段(Streaming Refinement Stage)來提升視訊品質。這個過程會以自回歸方式使用一個高解析度文生短視訊模型(如可使用 MS-Vid2Vid-XL),再搭配上新提出的用於無縫視訊區塊處理的隨機混合方法。而且後一步無需額外的訓練,這使得該方法無需較高的計算成本。

條件注意力模組

#首先,將所使用的預訓練文生(短)視訊模型記為Video-LDM。注意力模組(CAM)的構成是一個特徵提取器、一個向 Video-LDM UNet 注入的特徵注入器。

其中特徵提取器使用了逐幀的圖像編碼器,之後是與Video-LDM UNet 直到中間層一直使用的一樣的編碼器層(並透過UNet 的權重初始化)。

對於特徵注入,這裡的設計則是讓 UNet 中的每個長程跳躍連接透過交叉注意力關注 CAM 產生的相應特徵。

外觀保留模組

#APM 模組可透過使用固定錨定幀中的信息來將長期記憶整合進影片產生過程中。這有助於維持視訊區塊生成過程中的場景和物件特徵。

為了讓APM 能平衡處理錨定幀和文本指令給出的引導信息,該團隊做出了兩點改進:(1)將錨幀的CLIP 圖像token 與文本指令的CLIP 文字token 混合起來;(2)為每個交叉注意力層引入了一個權重來使用交叉注意力。

自回歸視訊增強

為了自回歸地增強24 幀的生成視訊區塊,這裡使用的是高解析度(1280x720)的文生(短)視訊模型(Refiner Video-LDM,見圖3)。這個過程的做法是先向輸入視訊區塊加入大量噪聲,然後再使用這個文生視訊擴散模型來進行去噪處理。

不過,這種方法不足以解決視訊區塊之間的過渡不匹配的問題。

為此,該團隊的解決方案是隨機混合方法。具體詳情請參閱原論文。

實驗

在實驗中,團隊所使用的評估指標包括:用於評估時間一致性的SCuts 分數、用於評估運動量和扭變誤差的運動感知扭變誤差(MAWE)、用於評估文字對齊品質的CLIP 文字影像相似度分數(CLIP)、美學分數(AE)。

消融研究

#為了評估各種新元件的有效性,團隊從驗證集中隨機採樣75 個prompt 執行了消融研究。

用於條件處理的 CAM:CAM 能幫​​助模型產生更一致的視頻,其 SCuts 分數比相比較的其它基線模型低 88%。

長期記憶:圖 6 顯示長期記憶能在自迴歸生成過程中極大地幫助維持物件和場景的特徵穩定。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

在一個定量評估指標(人再識別分數)上,APM 實現了 20% 的提升。

用於影片增強的隨機混合:與其它兩個基準相比,隨機混合能帶來顯著的品質提升,從圖4 也能看到:StreamingT2V 可以得到更平滑的過渡。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

StreamingT2V 比較基線模型

##該團隊透過定量和定性評估比較了整合上述改進的StreamingT2V 與多種模型,包括使用自回歸方法的圖像到視頻方法I2VGen-XL、SVD、DynamiCrafter-XL、SEINE,視頻到視頻方法SparseControl,文本到長視頻方法FreeNoise。

定量评估:从表 8 可以看出,在测试集上的定量评估表明,StreamingT2V 在无缝视频块过渡和运动一致性方面的表现最佳。新方法的 MAWE 分数也显著优于其它所有方法 —— 甚至比第二好的 SEINE 低 50% 以上。SCuts 分数上也有类似表现。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

此外,在生成视频的单帧质量上,StreamingT2V 仅略逊于 SparseCtrl。这表明这个新方法能够生成高质量的长视频,并且比其它对比方法具有更好的时间一致性和运动动态。

定性评估:下图展示了 StreamingT2V 与其它方法的效果比较,可以看出新方法能在保证视频动态效果的同时维持更好的一致性。

兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源

 更多研究细节,可参考原论文。

以上是兩分鐘1200幀的長視訊產生器StreamingT2V來了,程式碼將開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除