搜尋
首頁科技週邊人工智慧阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

你規定路線,Tora 來產生對應軌跡的影片。


目前,擴散模型能夠產生多樣化且高品質的影像或影片。此前,視頻擴散模型採用 U-Net 架構 ,主要側重於合成有限時長(通常約為兩秒)的視頻,並且分辨率和縱橫比受到固定限制。

Sora 的出現打破了這一限制,其採用Diffusion Transformer(DiT)架構,不僅擅長製作10 到60 秒的高質量視頻,而且還因其生成不同解析度、各種縱橫比、且遵守實際物理定律的能力而脫穎而出。

可以說 Sora 是 DiT 架構最有利的證明,然而,基於 Transformer 的擴散模型在有效生成可控動作視頻方面還未被充分探索。

針對這一問題,來自阿里的研究者提出了Tora,這是第一個面向軌蹟的DiT 架構,它將文本、視覺和軌跡條件同時集成在一起以生成視頻。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

Tora 的設計與DiT 的可擴展性無縫契合,允許精確控制具有不同持續時間、寬高比和分辨率的視頻內容。大量實驗證明,Tora 在實現高運動保真度方面表現出色,同時也能細緻模擬物理世界的運動。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

  • 論文地址:https://arxiv.org/pdf/2407.21705

論文首頁:https://ali-videoai.github.io/tora_video/

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

論文標題:Tora: Trajectory-oriented Diffusion Transformer for Video Generation

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

一艘老式的木製帆船沿著規定好的路線在迷霧籠罩的河流上平穩地滑行,周圍是茂密的綠色森林。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

一條鯽魚優雅地遊過火星的紅色岩石表面,魚的軌跡向左,火星的軌跡向右。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

熱氣球沿著不同的軌跡升入夜空,一個沿著規定的斜線,另一個沿著有彎度的軌跡。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

兩隻可愛的小貓並排走在寧靜的金色沙灘上。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

氣泡沿著軌跡輕輕地漂浮在盛開的野花中。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

楓葉在清澈的湖面上顫動,映照著秋天的森林。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

山間的瀑布傾瀉而下,主題、背景的運動都可以按照不同的路線運動。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

在Tora 與其他方法的比較中,可以看出Tora 產生的視訊流暢度更高,更遵循軌跡,且物體不會有變形的問題,保真度更好。
方法介紹

Tora 採用OpenSora 作為其DiT 架構的基礎模型,包含一個軌跡提取器(TE,Trajectory Extractor )、時空DiT(Spatial-Temporal DiT )和一個運動引導融合器(MGF,Motion-guidance Fuser) 。 TE 使用 3D 視訊壓縮網路將任意軌跡編碼為分層時空運動 patch。 MGF 將運動 patch 整合到 DiT 區塊中,以產生遵循軌蹟的一致影片。圖 3 概述了 Tora 的工作流程。
阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律
時空DiT(ST-DiT)

ST-DiT 架構包含兩種ST不同的區塊類型:空間DiT 區塊(S-DiT-B) 和時間DiT 區塊(T-DiT-B),它們交替排列。 S-DiT-B 包含兩個注意力層,每個層按順序執行空間自註意力(SSA) 和交叉注意力,後面跟著一個逐點前饋層,用於連接相鄰的T-DiT-B塊。 T-DiT-B 僅透過用時間自註意力 (TSA) 取代 SSA 來修改此架構,從而保持架構一致性。在每個區塊中,輸入在經過規範化後,透過跳躍連接連接回區塊的輸出。透過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理可變持續時間的影片。

軌跡提取器

已被證明是一種更友好的用戶軌跡方法來控制生成影片的運動。然而,DiT 模型採用視訊自編碼器和 patch 化過程將視訊轉換為視訊 patch。在這裡,每個 patch 都是跨多個幀導出,因此直接採用幀間偏移是不合適的。為了解決這個問題,本文提出的 TE 將軌跡轉換為運動 patch,而運動 patch 與視訊 patch 位於相同的潛在空間。

運動引導融合器

為了將基於DiT 的視訊產生與軌跡結合起來,本文探索了三種融合架構變體,將運動patch 注入每個ST-DiT 區塊。這些設計如圖 4 所示。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

實驗結果

在實現上,研究細節者基於OpenSora v1.2 權重來訓練Tora。訓練影片的解析度由 144p 到 720p 不等。為了平衡訓練 FLOP 以及每次迭代不同解析度和幀數所需的內存,研究者相應地將批次大小從 1 調整到 25。

至於訓練基礎設施,研究者使用了 4 塊英偉達 A100 和 Adam 優化器,學習率為 2 × 10^−5。

研究者將 Tora 與流行的運動指導影片產生方法進行了比較。評估中使用了三種設置,分別為 16、64 和 128 幀,所有設置都是 512×512 的分辨率。

結果如下表1 所示,在U-Net 方法常用的16 幀設定下,MotionCtrl 和DragNUWA 能夠更好地與所提供的軌跡實現對齊,但仍弱於Tora。隨著幀數增加,U-Net 方法在某些影格中出現明顯偏差,且錯位誤差傳播會導致後續序列中出現變形、運動模糊或物體消失。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

相較之下,得益於整合了 Transformer 的縮放能力,Tora 對幀數變化表現出很高的穩健性。 Tora 產生的運動更加流暢,且更符合物理世界。對於 128 幀測試設定下的評估,Tora 的軌跡精度達到其他方法的 3 到 5 倍,展現出了卓越的運動控制能力。

在下圖 5 中,研究者對不同解析度和持續時長的軌跡誤差進行分析。結果顯示,不同於 U-Net 隨時間推移出現明顯的軌跡誤差,Tora 的軌跡誤差隨時間推移出現漸進增加。這與 DiT 模型中視訊品質隨時間增加而下降相一致。 Tora 在更長的時間下保持了有效的軌跡控制。
阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律
下圖6 展示了Tora 與主流運動控制方法的比較分析,在包含兩人共同運動的場景中,所有方法都能產生相對準確的運動軌跡。不過,Tora 的視覺品質更好,這要歸功於更長序列幀的使用,有助於實現更平滑的運動軌跡和更逼真的背景渲染。

可以看到,在Tora 生成的自行車場景中,人的雙腿表現出逼真的踩踏動作,而DragNUWA 的雙腿幾乎水平漂浮,違反了物理真實性。此外,DragNUWA 和 MotionCtrl 在影片結尾都出現了嚴重的運動模糊。

在另一個生成燈籠的場景中,DragNUWA 隨著所提供軌蹟的持續升降出現了嚴重的變形。 MotionCtrl 的軌跡雖然相對準確,但產生的影片與兩個燈籠的描述不相符。 Tora 不僅嚴格地遵循了軌跡,而且最大程度地減少了物體變形,確保了更高保真度的動作表示。

阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

更多技術細節和實驗結果請參考原文。

以上是阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。