搜尋
首頁科技週邊人工智慧硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

Sora發布後出現了一些bug,網路上的用戶發現了一些問題,儘管模型對物理世界的了解並不充分,但小狗在行走時,兩條前腿就會出現交錯問題,讓人意外出現遊戲。

關於生成影片的真實感來說,物體的互動非常重要,但目前來說,合成真實3D物件在互動中的動態行為仍然非常困難。

動作條件動力學是一個研究領域,需要對物體的物理材料屬性進行感知,並建立在這些屬性(例如物體剛度)的基礎上進行3D運動預測。

由於缺乏數據支持,評估物理材料屬性仍然是一個棘手且未解決的問題,因為測量真實物體的物理材料屬性非常困難。

最近,MIT、史丹佛大學、哥倫比亞大學和康乃爾大學聯合提出了一種基於物理的模型PhysDreamer,利用視訊生成模型學習到的物件動力學學習先驗,為靜態3D物件賦予互動式動力學學習。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

論文連結:https://arxiv.org/pdf/2404.13026.pdf

項目首頁:https://physdreamer.github.io/

透過提煉先驗知識,PhysDreamer 能夠實現實體物件對全新互動的回應,例如外力或智能體操作,並且透過在彈性物體的不同範例上展現了此方法的效果,利用使用者研究評估了合成互動的真實性。

問題形式化

給定一個由3D高斯硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎表示的靜態物件(其中xp表示位置,αp表示不透明度,Σp表示協方差矩陣,cp表示粒子的顏色),最終目標是估計物體的物理材料屬性場,以實現真實的互動式運動合成。

具體性質包括質量m、楊氏模數E和泊鬆比ν,其中楊氏模量用來測量材料的剛度,決定物體響應外力作用的運動軌跡:較高的楊氏模量會帶來更小的形變,以及更剛性和更高頻率的運動。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

花在相同的作用力下但具有不同楊氏模量的模擬運動

所以研究者將問題形式化為,估計3D物體的空間變化楊氏模量場E(x),可以用硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎查詢粒子的楊氏模量,以進行粒子模擬。

至於其他物理性質,粒子的質量m_p可以預先計算為恆定密度(ρ)和粒子體積Vp的乘積;粒子體積可以透過將「背景單元的體積」除以「本單元所包含的粒子數」來估計得到;泊鬆比νp對物體運動的影響可以忽略不計,可以假設為常數。

模型架構

PhysDreamer可以估計靜態3D物件的材質場,其關鍵想法在於生成運動中物體的可信視頻,然後優化材料場E(x )以匹配合成運動。

給定一個表示為3D高斯的對象,首先從某個視點進行渲染(帶背景),然後使用圖像到視頻生成模型來生成運動中物體的參考視頻,再使用可微分材質點方法(MPM,Material Point Methods)和可微分渲染,對空間變化的材質場和初始速度場進行最佳化,旨在最小化渲染影片和參考影片之間的差異。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

虛線箭頭代表梯度流

1. 基礎知識

3D高斯採用一組各向異性的3D高斯核來表示3D場景的輻射場,雖然其主要是作為3D新視圖合成方法引入的,但由於3D高斯具有拉格朗日性質,所以能夠直接適用於粒子的物理模擬器。

與PhysGaussian方法類似,研究人員使用材質點方法(MPM,Material Point Methods)直接在高斯粒子上模擬物體動力學。

由於3D高斯分佈主要位於物件表面,因此可以應用可選的內部填充過程來提高模擬真實感。

連續介質力學(Continuum mechanics)和彈性材料

在連續介質力學中,材料的變形是透過一個映射函數ϕ來模擬的,可以將材料在未變形狀態下的空間點X轉換為變形後的世界空間中的點x,這個過程可以用公式硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

為了測量材料變形中的局部旋轉和應變(strain),引入了形變梯度(deformation gradient)的概念,為映射函數ϕ的雅可比矩陣F,即硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

#形變梯度是理解和描述材料應力-應變關係的關鍵,涉及材料的局部變形狀態。

在高彈性材料中,Cauchy應力(stress)的計算依賴應變能密度函數ψ(F),可以對材料非剛性變形的程度進行量化;通常來說,該函數由材料科學家根據材料的對稱性和旋轉不變性原則設計,並與實驗數據相匹配。

此外,固定旋轉超彈性模型中的能量密度函數可以透過變形梯度的一個奇異值σi來表示,並且模型參數μ和λ與材料的楊氏模量E和泊鬆比ν有直接關係,這些參數對於理解材料在受力時的表現至關重要。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

#材質點方法Material Point Method (MPM)

研究人員使用移動最小二乘材料點法(MLS-MPM)來求解「彈性材料動態」的控制方程,其中ρ代表密度,v(x, t)代表世界空間的速度場,f代表外部力。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

MPM是用於模擬各種材料動力學的計算方法,結合了歐拉和拉格朗日方法的優點,特別適合模擬固體、流體、沙子、布料等材料的動態行為,能夠有效處理材料的拓樸變化,並且在圖形處理單元(GPU)上容易並行化。

透過將物體視為一系列高斯粒子來進行空間離散化,每個粒子p代表物體的一小部分體積,並攜帶體積、質量、位置、速度、變形梯度和局部速度場梯度等屬性。

MPM的計算過程包括粒子到網格(P2G)和網格到粒子(G2P)的轉換循環(transfer loop):

在P2G階段,動量從粒子傳遞到網格,更新網格上的速度,然後這些更新後的速度資訊被傳回粒子,用於更新粒子的位置和速度,同時,粒子的局部速度梯度和變形梯度也會隨之更新,以反映材料的當前狀態。

MPM方法可以對材料的複雜動態行為進行精確模擬,包括材料的變形、斷裂和交互作用。

2. 估計物理屬性

#

研究人員使用移動最小二乘材質點法(MLS-MPM)作為實體模擬器,並採用固定旋轉超彈性材料模型來模擬三維物體的過程。

MLS-MPM模擬過程

#模擬器使用MLS-MPM來模擬物件的物理行為,模擬函數接收目前時間步t的粒子位置x、速度v、形變梯度F和局部速度場梯度C,以及粒子的物理屬性集合θ(包含所有粒子的質量、楊氏模量、泊鬆比和體積)和時間步長Δt(1×10^-4)作為輸入,並輸出下一個時間步t 1的對應值。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

為了模擬相鄰影片影格之間的動態,通常需要迭代數百個子步驟。

模擬與渲染

#在模擬後,使用可微分渲染函數Frender來渲染每個影格的高斯粒子,其中Rt表示從模擬步驟中獲得的所有粒子的旋轉矩陣。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

然後使用產生的影片作為參考,透過每幀的損失函數來最佳化空間變化的楊氏模量E和初始速度v0,其中損失函數結合了L1損失和D-SSIM損失,權重參數λ設定為0.1

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

參數化和正規化

材質場和速度場透過兩個三平面(triplanes)和三層多層感知器(MLP)來進行參數化,為了提升空間平滑性,對這兩個場的所有空間平面都應用了總變分正規化(total variation regularization)。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

#優化過程

#優化過程被分成兩個階段以提高穩定性並加快收斂速度:

1. 在第一階段,對每個高斯粒子的楊氏模量進行隨機初始化並固定,然後僅使用參考影片的前三個幀來優化每個粒子的初始速度。

2. 在第二階段,固定初始速度並最佳化空間變化的楊氏模量。為了防止梯度爆炸或消失,梯度訊號隻流向前一幀。

透過這種方式,模擬器能夠模擬物體的物理行為,並根據參考影片最佳化材料屬性和初始條件,以產生逼真的動態效果。

3. 用子取樣(subsampling)加速模擬

使用三維高斯粒子進行高保真渲染通常需要數百萬個粒子才能表示出一個場景,給運行模擬帶來了巨大的計算負擔。

為了提高效率,模型引入了一個子取樣過程,在大幅減少運算量的同時,還能保持渲染結果的高保真度:只用少量的驅動粒子(driving particle)進行模擬,然後透過插值驅動粒子來獲得高斯粒子的位置和旋轉,有效地平衡了計算效率和渲染品質。

具體來說,模型使用K-Means聚類演算法在t=0時刻創建一組驅動粒子,其中每個驅動粒子由一組物理屬性表示,包括位置、速度、形變梯度、局部速度場梯度、楊氏模量、質量、泊鬆比和體積。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

驅動粒子的初始位置是其所有聚類成員位置的平均值,其中驅動粒子的數量遠小於三維高斯粒子的數量。

在渲染過程中,透過插值驅動粒子的位置和旋轉來計算每個三維高斯粒子的位置和旋轉:對於每個三維高斯粒子,首先找到它在t=0時刻的八個最近鄰驅動粒子,然後擬合這些八個驅動粒子在t=0時刻和當前時間戳之間的剛體變換T,以決定粒子的當前位置和旋轉。

實驗結果

資料集

透過捕捉多視角圖像,研究人員收集了八個真實世界的靜態場景,其中每個場景包括一個物體和一個背景,物品包括五朵花(一朵紅玫瑰、一朵康乃馨、一朵橙玫瑰、一朵鬱金香和一朵白玫瑰)、一株海芋、一根電話線和一頂無簷帽;然後捕捉四個交互視頻來說明其在交互後的自然運動,例如戳或拖,再使用真實視頻作為額外的對比參考。

實驗結果

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

#關於空間變化的楊氏模數(一種衡量材料彈性的物理量)的定性分析結果

在用戶研究中,與基線方法和真實世界捕捉的視頻對比後可以看到,有超過80%的參與者在兩個選擇實驗(2AFC)中更傾向於PhysDreamer模型,認為在運動的真實性上更勝一籌;在視覺品質方面,也有65%的參與者更偏好PhysDreamer

#要注意的是,由於比較的靜態場景本身是一致的,因此視覺品質的評估也在一定程度上也依賴生成物體的運動效果。

硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎

從運動模式在不同時間點上的切片中可以觀察到,PhysGaussian由於缺少對材料屬性進行原理性估計,導致其生成的運動幅度過大且速度過慢,與現實不符。

而與DreamGaussian4D相比,有70%和63.5%的2AFC樣本在視覺品質和運動真實性上更傾向於PhysDreamer模型,從上圖可以看到,DreamGaussian4D產生的運動是週期性的,且幅度保持在一個較小的恆定值,相較之下,PhysDreamer能夠模擬出運動中的衰減效果。

以上是硬核解決Sora的物理bug!美國四所頂尖高校聯合發布:為視頻生成器裝個實體引擎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具