你規定路線,Tora 來產生對應軌跡的影片。 目前,擴散模型能夠產生多樣化且高品質的影像或影片。此前,視頻擴散模型採用 U-Net 架構 ,主要側重於合成有限時長(通常約為兩秒)的視頻,並且分辨率和縱橫比受到固定限制。 Sora 的出現打破了這一限制,其採用Diffusion Transformer(DiT)架構,不僅擅長製作10 到60 秒的高質量視頻,而且還因其生成不同解析度、各種縱橫比、且遵守實際物理定律的能力而脫穎而出。 可以說 Sora 是 DiT 架構最有利的證明,然而,基於 Transformer 的擴散模型在有效生成可控動作視頻方面還未被充分探索。 針對這一問題,來自阿里的研究者提出了Tora,這是第一個面向軌蹟的DiT 架構,它將文本、視覺和軌跡條件同時集成在一起以生成視頻。 Tora 的設計與DiT 的可擴展性無縫契合,允許精確控制具有不同持續時間、寬高比和分辨率的視頻內容。大量實驗證明,Tora 在實現高運動保真度方面表現出色,同時也能細緻模擬物理世界的運動。 論文地址:https://arxiv.org/pdf/2407.21705 論文首頁:https://ali-videoai.github.io/tora_video/論文標題:Tora: Trajectory-oriented Diffusion Transformer for Video Generation一艘老式的木製帆船沿著規定好的路線在迷霧籠罩的河流上平穩地滑行,周圍是茂密的綠色森林。 一條鯽魚優雅地遊過火星的紅色岩石表面,魚的軌跡向左,火星的軌跡向右。 熱氣球沿著不同的軌跡升入夜空,一個沿著規定的斜線,另一個沿著有彎度的軌跡。 兩隻可愛的小貓並排走在寧靜的金色沙灘上。 氣泡沿著軌跡輕輕地漂浮在盛開的野花中。 楓葉在清澈的湖面上顫動,映照著秋天的森林。 山間的瀑布傾瀉而下,主題、背景的運動都可以按照不同的路線運動。 在Tora 與其他方法的比較中,可以看出Tora 產生的視訊流暢度更高,更遵循軌跡,且物體不會有變形的問題,保真度更好。 方法介紹Tora 採用OpenSora 作為其DiT 架構的基礎模型,包含一個軌跡提取器(TE,Trajectory Extractor )、時空DiT(Spatial-Temporal DiT )和一個運動引導融合器(MGF,Motion-guidance Fuser) 。 TE 使用 3D 視訊壓縮網路將任意軌跡編碼為分層時空運動 patch。 MGF 將運動 patch 整合到 DiT 區塊中,以產生遵循軌蹟的一致影片。圖 3 概述了 Tora 的工作流程。 時空DiT(ST-DiT)ST-DiT 架構包含兩種ST不同的區塊類型:空間DiT 區塊(S-DiT-B) 和時間DiT 區塊(T-DiT-B),它們交替排列。 S-DiT-B 包含兩個注意力層,每個層按順序執行空間自註意力(SSA) 和交叉注意力,後面跟著一個逐點前饋層,用於連接相鄰的T-DiT-B塊。 T-DiT-B 僅透過用時間自註意力 (TSA) 取代 SSA 來修改此架構,從而保持架構一致性。在每個區塊中,輸入在經過規範化後,透過跳躍連接連接回區塊的輸出。透過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理可變持續時間的影片。 軌跡提取器已被證明是一種更友好的用戶軌跡方法來控制生成影片的運動。然而,DiT 模型採用視訊自編碼器和 patch 化過程將視訊轉換為視訊 patch。在這裡,每個 patch 都是跨多個幀導出,因此直接採用幀間偏移是不合適的。為了解決這個問題,本文提出的 TE 將軌跡轉換為運動 patch,而運動 patch 與視訊 patch 位於相同的潛在空間。 運動引導融合器為了將基於DiT 的視訊產生與軌跡結合起來,本文探索了三種融合架構變體,將運動patch 注入每個ST-DiT 區塊。這些設計如圖 4 所示。 實驗結果在實現上,研究細節者基於OpenSora v1.2 權重來訓練Tora。訓練影片的解析度由 144p 到 720p 不等。為了平衡訓練 FLOP 以及每次迭代不同解析度和幀數所需的內存,研究者相應地將批次大小從 1 調整到 25。 至於訓練基礎設施,研究者使用了 4 塊英偉達 A100 和 Adam 優化器,學習率為 2 × 10^−5。 研究者將 Tora 與流行的運動指導影片產生方法進行了比較。評估中使用了三種設置,分別為 16、64 和 128 幀,所有設置都是 512×512 的分辨率。 結果如下表1 所示,在U-Net 方法常用的16 幀設定下,MotionCtrl 和DragNUWA 能夠更好地與所提供的軌跡實現對齊,但仍弱於Tora。隨著幀數增加,U-Net 方法在某些影格中出現明顯偏差,且錯位誤差傳播會導致後續序列中出現變形、運動模糊或物體消失。 相較之下,得益於整合了 Transformer 的縮放能力,Tora 對幀數變化表現出很高的穩健性。 Tora 產生的運動更加流暢,且更符合物理世界。對於 128 幀測試設定下的評估,Tora 的軌跡精度達到其他方法的 3 到 5 倍,展現出了卓越的運動控制能力。 在下圖 5 中,研究者對不同解析度和持續時長的軌跡誤差進行分析。結果顯示,不同於 U-Net 隨時間推移出現明顯的軌跡誤差,Tora 的軌跡誤差隨時間推移出現漸進增加。這與 DiT 模型中視訊品質隨時間增加而下降相一致。 Tora 在更長的時間下保持了有效的軌跡控制。 下圖6 展示了Tora 與主流運動控制方法的比較分析,在包含兩人共同運動的場景中,所有方法都能產生相對準確的運動軌跡。不過,Tora 的視覺品質更好,這要歸功於更長序列幀的使用,有助於實現更平滑的運動軌跡和更逼真的背景渲染。 可以看到,在Tora 生成的自行車場景中,人的雙腿表現出逼真的踩踏動作,而DragNUWA 的雙腿幾乎水平漂浮,違反了物理真實性。此外,DragNUWA 和 MotionCtrl 在影片結尾都出現了嚴重的運動模糊。 在另一個生成燈籠的場景中,DragNUWA 隨著所提供軌蹟的持續升降出現了嚴重的變形。 MotionCtrl 的軌跡雖然相對準確,但產生的影片與兩個燈籠的描述不相符。 Tora 不僅嚴格地遵循了軌跡,而且最大程度地減少了物體變形,確保了更高保真度的動作表示。 更多技術細節和實驗結果請參考原文。