近兩年來,隨著大規模圖文資料集如LAION-5B的開放,圖片生成領域湧現出了一系列效果驚人的方法,如Stable Diffusion、DALL-E 2、ControlNet和Composer 。這些方法的出現使得圖片生成領域取得了巨大的突破和進展。圖片生成領域可謂在過去短短兩年內取得了快速發展。
然而,影片產生仍然面臨著巨大的挑戰。首先,與圖片生成相比,影片生成需要處理更高維度的數據,並且需要考慮到額外的時間維度,這帶來了時序建模的問題。為了驅動時序動態的學習,我們需要更多的視訊-文字對資料。然而,對影片進行準確的時序標註非常昂貴,這限制了視訊-文字資料集的規模。目前,現有的WebVid10M影片資料集僅包含10.7M個影片-文字對,與LAION-5B圖片資料集相比,資料規模相差甚遠。這嚴重限制了視訊生成模型規模化擴展的可能性。
為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了TF-T2V 視訊方案:
#論文網址:https://arxiv.org/abs/2312.15770
項目首頁:https://tf-t2v.github.io/
即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案) 。
該方案另闢蹊徑,提出了基於大規模無文字標註視訊資料進行視訊生成,能夠學習豐富的運動動態。
先來看看TF-T2V 的影片產生效果:
文生影片任務
提示詞:產生在冰雪覆蓋的土地上有一隻冰霜般的大生物的影片。
提示字:產生一隻卡通蜜蜂的動畫影片。
提示:產生包含一輛未來幻想摩托車的影片。
提示詞:產生一個小男孩快樂微笑的影片。
提示字:產生一個老人覺得頭痛的影片。
#組合式影片產生任務
給定文字與深度圖或文字與素描草圖,TF-T2V 能夠進行可控的視訊生成:
也可以進行高解析度視訊合成:
半監督設定
在半監督設定下的TF-T2V 方法還可以產生符合運動文本描述的視頻,如「人從右往左跑」。
TF-T2V 的核心思想是將模型分為運動分支和表觀分支,運動分支用於建模運動動態,表觀分支用於學習視覺表觀資訊。這兩個分支進行聯合訓練,最終可以實現透過文字驅動視訊生成。
為了提升產生影片的時序一致性,作者團隊也提出了時序一致性損失,並明確地學習影片影格之間的連續性。
值得一提的是,TF-T2V 是一種通用的框架,不僅適用於文生視訊任務,還能應用於組合式影片產生任務,如sketch-to-video、video inpainting、first frame-to-video 等。
具體細節和更多實驗結果可以參考原論文或專案首頁。
此外,作者團隊也將TF-T2V 作為教師模型,利用一致性蒸餾技術得到了VideoLCM 模型:
##論文網址:https://arxiv.org/abs/2312.09109
專案首頁:https://tf-t2v.github.io/
即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案)。
不同於先前視訊產生方法需要大約50 步DDIM 去噪步驟,基於TF-T2V 的VideoLCM 方法可以只需要進行大約4 步推理去噪就產生高保真的視頻,大大提升了視訊生成的效率。
一起來看看VideoLCM 進行4 步驟去雜訊推理的結果:
##具體細節和更多實驗結果可以參考VideoLCM 原始論文或專案首頁。
#########總而言之,TF-T2V 方案為影片生成領域帶來了新思路,克服了資料集規模和標註難題帶來的挑戰。利用大規模的無文字標註視頻數據,TF-T2V 能夠產生高品質的視頻,並應用於多種視訊生成任務。這項創新將推動視訊生成技術的發展,為各行各業帶來更廣闊的應用場景和商業機會。 ######以上是華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!的詳細內容。更多資訊請關注PHP中文網其他相關文章!