首頁 >科技週邊 >人工智慧 >詳解Latte:去年底上線的全球首個開源文生影片DiT

詳解Latte:去年底上線的全球首個開源文生影片DiT

WBOY
WBOY轉載
2024-03-27 15:30:341065瀏覽

隨著 Sora 發布成功,影片 DiT 模型引起了廣泛關注和討論。設計穩定的超大規模神經網路一直是視覺生成領域研究的重點。 DiT 模型的成功為影像生成的規模化帶來了新的可能性。

然而,由於視訊資料的高度結構化和複雜性,將 DiT 擴展到視訊生成領域是一項具有挑戰性的任務。由上海人工智慧實驗室的研究團隊和其他機構共同組成的團隊,透過大規模的實驗回答了這個問題。

去年11月,該團隊已經發布了一款名為Latte的自研模型,其技術與Sora有相似之處。 Latte是全球首個開源文生影片DiT,受到了廣泛關注。許多開源框架如Open-Sora Plan (PKU)和Open-Sora (ColossalAI)都在使用和參考Latte的模型設計。

詳解Latte:去年底上線的全球首個開源文生影片DiT

  • 開源連結:https://github.com/Vchitect/Latte
  • 計畫首頁:https://maxin-cn.github.io/latte_project/
  • 論文連結:https:/ /arxiv.org/pdf/2401.03048v1.pdf

#先來看Latte的影片產生效果。

詳解Latte:去年底上線的全球首個開源文生影片DiT

方法介紹

#總的來說,Latte包含兩個關鍵模組:預先訓練的VAE和視頻DiT。在預先訓練的VAE中,編碼器負責將視訊逐幀從像素空間壓縮到潛在空間,而視訊DiT則負責提取token並進行時空建模以對潛在表徵進行處理,最後,VAE解碼器將特徵映射回像素空間以產生視訊。為了獲得最佳的視頻質量,研究者專注於Latte設計中的兩個重要方面,即視頻DiT模型的整體結構設計和模型訓練的最佳實踐細節。

(1)Latte 整體模型結構設計探究

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖1 . Latte 模型結構及其變體

作者提出了4 種不同的Latte 變體(圖1),從時空注意力機制的角度設計了兩種Transformer 模組,同時在每個模組中分別研究了兩種變體(Variant):

1. 單注意力機制模組,每個模組中只包含時間或空間注意力

  • 時空交錯式建模 (Variant 1): 時間模組插入到各個空間模組之後。
  • 時空順序式建模 (Variant 2): 時間模組整體置於空間模組之後。

2. 多重註意力機制模組,每個模組中同時包含時間與空間注意力機制(Open-sora所參考變體)

  • 串聯式時空注意力機制 (Variant 3): 時空注意力機制串列建模。
  • 並聯式時空注意力機制 (Variant 4): 時空注意力機制並行建模並特徵融合。

實驗顯示(圖2),透過對4 種模型變體設定相同的參數量,變體4 相較於其他三種變體在FLOPS 上有著明顯的差異,因此FVD 上也相對最高,其他3 種變體整體性能類似,變體1 取得了最優異的性能,作者計劃未來在大規模的數據上做更加細緻的討論。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖2.模型結構 FVD

(2)Latte 模型與訓練細節的最優設計探究(The best practices)

除了模型整體結構設計,作者也探討了其他模型與訓練中影響生成效果的因素。

1.Token 提取:探究了單幀 token(a)和時空 token(b)兩種方式,前者只在空間層面壓縮 token,後者同時壓縮時空資訊。實驗顯示單一影格 token 要優於時空 token(圖 4)。與 Sora 進行比較,作者猜測 Sora 提出的時空 token 是透過視訊 VAE 進行了時間維度的預壓縮,而在隱空間上與 Latte 的設計類似都只進行了單幀 token 的處理。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖3. Token 擷取方式,(a) 單一畫面token 與(b) 時空token

詳解Latte:去年底上線的全球首個開源文生影片DiT

#圖4. Token 提取FVD

#2. 條件注入模式:探究了(a)S-AdaLN 和(b)all tokens 兩種方式(圖5)。 S-AdaLN 透過 MLP 將條件資訊轉換為歸一化中的變數注入到模型中。 All token 形式將所有條件轉換為統一的 token 作為模型的輸入。實驗證明,S-AdaLN 的方式相較於 all token 對於獲得高品質的結果更有效 (圖 6)。原因是,S-AdaLN 可以使資訊直接注入到每一個模組。而 all token 需要將條件資訊從輸入逐層傳遞到最後,存在著資訊流動過程中的損失。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖 5. (a) S-AdaLN 和 (b) all tokens。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖6. 條件注入方式FVD

3. 時空位置編碼:探討了絕對位置編碼與相對位置編碼。 不同的位置編碼對最後影片品質影響很小 (圖 7)。由於生成時長較短,位置編碼的差異不足以影響視訊質量,對於長視訊生成,此因素需要被重新考慮。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖7.位置編碼方式FVD

4. 模型初始化 :探究使用ImageNet 預訓練參數初始化對模型效能的影響。實驗表明,使用 ImageNet 初始化的模型具有較快的收斂速度,然而,隨著訓練的進行,隨機初始化的模型卻取得了較好的結果 (圖 8)。可能的原因在於 ImageNet 與訓練集 FaceForensics 之間存在著比較大的分佈差異,因此未能對模型的最終結果起到促進作用。而對於文生視訊任務而言,該結論需要被重新考慮。在通用資料集的分佈上,影像與影片的內容空間分佈相似,使用預訓練 T2I 模型對於 T2V 可以起到極大的促進作用。

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖8.初始化參數FVD

#5. 影像視訊聯合訓練:將影片與影像壓縮為統一token 進行聯合訓練,視訊token 負責優化全部參數,影像token 只負責優化空間參數。 聯合訓練對於最終的結果有著顯著的提升 (表2 和表3),無論是圖片FID,還是視頻FVD,通過聯合訓練都得到了降低,該結果與基於UNet 的框架[2 ][3] 是一致的。

6. 模式尺寸:探討了 4 個不同的模式尺寸,S,B,L 和 XL (表 1)。 擴大影片 DiT 規模對於提升生成樣本品質有顯著的幫助 (圖 9)。這個結論也證明了在視訊擴散模型中使用 Transformer 結構對於後續 scaling up 的正確性。

詳解Latte:去年底上線的全球首個開源文生影片DiT

表 1. Latte 不同尺寸模型規模

詳解Latte:去年底上線的全球首個開源文生影片DiT

圖9.模型尺寸FVD

#定性與定量分析

##作者分別在4 個學術資料集(FaceForensics,T​​aichiHD,SkyTimelapse 以及UCF101)進行了訓練。定性與定量(表 2 和表 3)結果顯示 Latte 均取得了最佳的性能,由此可以證明模型整體設計是具有優異性的。

詳解Latte:去年底上線的全球首個開源文生影片DiT

詳解Latte:去年底上線的全球首個開源文生影片DiT

表3. Latte 與SoTA 影片品質評估###############生影片擴充功能###################################################### ###為了進一步證明Latte 的通用性能,作者將Latte 擴展到了文生視頻任務,利用預訓練PixArt-alpha [4] 模型作為空間參數初始化,按照最優設計的原則,在經過一段時間的訓練之後, Latte 已經初步具備了文生影片的能力。後續計劃透過擴大規模來驗證 Latte 生成能力的上限。 ############討論與總結############Latte 作為全世界首個開源文生影片DiT,已經取得了很有前景的結果,但由於計算資源的巨大差異,在生成清晰度,流暢度上以及時長上與Sora 相比還具有不小的差距。團隊歡迎並積極尋求各種合作,希望透過開源的力量,打造出性能卓越的自主研發大規模通用視訊生成模型。 ############

以上是詳解Latte:去年底上線的全球首個開源文生影片DiT的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除