搜尋
首頁科技週邊人工智慧結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

擴散模型的引入推動了文本生成視頻技術的發展,然而,這些方法往往計算成本高昂,且難以實現流暢的物體運動視頻

為了應對這些問題,來自中國科學院深圳先進技術研究院、中國科學院大學和VIVO人工智慧實驗室的研究人員聯合提出了一種名為GPT4Motion的新框架,該框架無需訓練即可生成文字視訊。 GPT4Motion 結合了GPT等大型語言模型的規劃能力、Blender軟體提供的物理模擬能力以及擴散模型的文生成圖能力,旨在大幅提升影片合成的品質

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻


  • 專案連結:https://gpt4motion.github.io/
  • 論文連結:https:/ /arxiv.org/pdf/2311.12631.pdf
  • #程式碼連結:https://github.com/jiaxilv/GPT4Motion

#GPT4Motion 使用GPT-4 基於使用者輸入的文字prompt 產生Blender 腳本。它利用 Blender 的實體引擎來創建基本的場景元件,並將其封裝為連續的跨幀運動。然後,將這些組件輸入到擴散模型中,生成與文本prompt 相匹配的視頻

#實驗結果表明,GPT4Motion 能夠高效地生成高質量的視頻,同時保持了運動的一致性和實體的一致性。需要注意的是,GPT4Motion 使用了實體引擎,使得產生的影片更加真實。這為文字生成影片提供了新的視角

讓我們先看看GPT4Motion的生成效果,例如輸入文字提示:「一件白色T卹在微風中飄動」、“一件白色T卹在風中飄動」、「一件白色T卹在大風中飄動」。由於風的強度不同,GPT4Motion產生的影片中白色T恤的飄動幅度也不同:

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

在液體流動形態方面,GPT4Motion 產生的影片也能夠很好地表現出來:

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

籃球從空中旋轉落下:

方法介紹

該研究的目標是根據使用者對一些基本物理運動場景的prompt,產生一個符合物理特性的影片。物理特性通常與物體的材料有關。研究者的重點在於模擬日常生活中常見的三種物體材料:1)剛性物體,在受力時能保持形狀不改變;2)布料,其特徵是柔軟且易飄動;3)液體,表現出連續和可變形的運動。

此外,研究人員也特別關注這些材料的幾種典型運動模式,包括碰撞(物體之間的直接撞擊)、風效應(氣流引起的運動)和流動(連續且朝著一個方向移動)。模擬這些物理場景通常需要經典力學、流體力學和其他物理知識。目前專注於文字生成影片的擴散模型很難透過訓練來獲得這些複雜的物理知識,因此無法製作出符合物理特性的影片

GPT4Motion的優勢在於:確保產生的影片不僅與使用者輸入的提示一致,而且在物理上也是正確的。 GPT-4的語意理解和程式碼產生能力可以將使用者的提示轉換為Blender的Python腳本,該腳本可以驅動Blender的內建實體引擎來模擬對應的實體場景。此外,研究也使用了ControlNet,將Blender模擬的動態結果作為輸入,指導擴散模型逐幀產生影片

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

##利用GPT-4 啟動Blender 進行模擬操作

研究者觀察到,雖然 GPT-4 對 Blender 的 Python API 有一定的了解,但它根據使用者 prompt 產生 Blender 的 Python 腳本的能力仍然有所欠缺。一方面,要求 GPT-4 直接在 Blender 中創建哪怕是一個簡單的 3D 模型(如籃球)似乎都是一項艱鉅的任務。另一方面,由於 Blender 的 Python API 資源較少且 API 版本更新較快,GPT-4 很容易誤用某些功能或因版本差異而出錯。為了解決這些問題,研究提出了以下方案:

  1. 使用外部3D 模型
  2. 封裝Blender 函數
  3. 將使用者prompt 轉換為物理特性

圖3 顯示了該研究為GPT-4 設計的通用prompt 範本。它包括封裝的 Blender 函數、外部工具和使用者指令。研究者在模板中定義了虛擬世界的尺寸標準,並提供了有關攝影機位置和視角的資訊。這些資訊有助於 GPT-4 更能理解三維空間的佈局。之後基於使用者輸入的 prompt 產生對應的指令,引導 GPT-4 產生對應的 Blender Python 腳本。最後,透過該腳本,Blender 渲染出物體的邊緣和深度,並以影像序列的形式輸出。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#重寫後的內容:製作遵循物理規律的影片

這項研究旨在根據使用者提供的提示和Blender所提供的相應物理運動條件,產生與文字內容一致且視覺效果逼真的影片。為此,研究採用了擴散模型XL(SDXL)來完成生成任務,並對其進行了改進

  1. 物理運動約束
  2. 時間一致性限制

實驗結果

#控制物理特性

圖4展示了GPT4Motion在三種提示下產生的籃球運動視頻,涉及籃球的下落和碰撞。在圖4的左側,籃球在旋轉時保持了高度逼真的紋理,並準確地複製了與地面碰撞後的彈跳行為。圖4的中間顯示,此方法可以精確控制籃球的數量,並有效地產生多個籃球落地時發生的碰撞和彈跳。令人驚訝的是,如圖4右側所示,當使用者要求將籃球拋向攝影機時,GPT-4會根據生成腳本中籃球的下落時間計算出必要的初始速度,從而實現逼真的視覺效果。這表明,GPT4Motion可以與GPT-4所掌握的物理知識相結合,從而控制生成的視頻內容

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

在風中飄動的布料。圖 5 和圖 6 驗證了 GPT4Motion 在產生在風力影響下運動的布匹的能力。利用現有的實體引擎進行模擬,GPT4Motion 可產生不同風力下布的波動和波浪。在圖 5 展示了一面飄動旗幟的生成結果。在不同風力下,旗幟呈現複雜的波紋和波浪圖案。圖 6 顯示了不規則布料物體 —— T 卹,在不同風力下的運動情況。受織物彈性和重量等物理特性的影響,T 卹發生了抖動和扭曲,並出現了明顯的褶皺變化。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#圖 7 展示了將不同黏度的水倒入馬克杯的三段影片。當水的黏度較低時,流動的水與杯子中的水發生碰撞並融合,形成複雜的湍流現象。隨著黏度的增加,水流變得緩慢,並且液體開始相互黏連在一起

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#與基準方法對比

在圖1中,GPT4Motion與其他基準方法進行了直覺對比。很明顯,基線方法的結果與使用者的提示不符。 DirecT2V和Text2Video-Zero在紋理逼真度和動作一致性方面有缺陷,而AnimateDiff和ModelScope雖然提高了影片的流暢度,但在紋理一致性和動作逼真度方面仍有提升空間。與這些方法相比,GPT4Motion可以在籃球下落和與地板碰撞後的彈跳過程中產生平滑的紋理變化,看起來更加逼真

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

如圖8(第一行)所示,AnimateDiff 和Text2Video-Zero 產生的影片在旗幟上出現了偽影/ 扭曲,而ModelScope 和DirecT2V 則無法平滑地產生旗幟在風中飄動的漸變。但是,如圖 5 中間所示,GPT4Motion 產生的影片可以顯示出旗幟在重力和風力作用下皺紋和波紋的連續變化。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

所有基準的結果都與使用者提示不符,如圖8中的第二行所示。儘管An​​imateDiff和ModelScope的影片反映了水流的變化,但它們無法捕捉到水倒入杯子的物理效果。另一方面,由Text2VideoZero和DirecT2V產生的影片則創造了一個不斷抖動的杯子。與此相比,如圖7(左)所示,GPT4Motion產生的影片準確地描述了水流與馬克杯碰撞時的激盪,效果更加逼真

有興趣的讀者可以閱讀原始論文,以了解更多的研究內容

以上是結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器