搜尋
首頁科技週邊人工智慧結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

擴散模型的引入推動了文本生成視頻技術的發展,然而,這些方法往往計算成本高昂,且難以實現流暢的物體運動視頻

為了應對這些問題,來自中國科學院深圳先進技術研究院、中國科學院大學和VIVO人工智慧實驗室的研究人員聯合提出了一種名為GPT4Motion的新框架,該框架無需訓練即可生成文字視訊。 GPT4Motion 結合了GPT等大型語言模型的規劃能力、Blender軟體提供的物理模擬能力以及擴散模型的文生成圖能力,旨在大幅提升影片合成的品質

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻


  • 專案連結:https://gpt4motion.github.io/
  • 論文連結:https:/ /arxiv.org/pdf/2311.12631.pdf
  • #程式碼連結:https://github.com/jiaxilv/GPT4Motion

#GPT4Motion 使用GPT-4 基於使用者輸入的文字prompt 產生Blender 腳本。它利用 Blender 的實體引擎來創建基本的場景元件,並將其封裝為連續的跨幀運動。然後,將這些組件輸入到擴散模型中,生成與文本prompt 相匹配的視頻

#實驗結果表明,GPT4Motion 能夠高效地生成高質量的視頻,同時保持了運動的一致性和實體的一致性。需要注意的是,GPT4Motion 使用了實體引擎,使得產生的影片更加真實。這為文字生成影片提供了新的視角

讓我們先看看GPT4Motion的生成效果,例如輸入文字提示:「一件白色T卹在微風中飄動」、“一件白色T卹在風中飄動」、「一件白色T卹在大風中飄動」。由於風的強度不同,GPT4Motion產生的影片中白色T恤的飄動幅度也不同:

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

在液體流動形態方面,GPT4Motion 產生的影片也能夠很好地表現出來:

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

籃球從空中旋轉落下:

方法介紹

該研究的目標是根據使用者對一些基本物理運動場景的prompt,產生一個符合物理特性的影片。物理特性通常與物體的材料有關。研究者的重點在於模擬日常生活中常見的三種物體材料:1)剛性物體,在受力時能保持形狀不改變;2)布料,其特徵是柔軟且易飄動;3)液體,表現出連續和可變形的運動。

此外,研究人員也特別關注這些材料的幾種典型運動模式,包括碰撞(物體之間的直接撞擊)、風效應(氣流引起的運動)和流動(連續且朝著一個方向移動)。模擬這些物理場景通常需要經典力學、流體力學和其他物理知識。目前專注於文字生成影片的擴散模型很難透過訓練來獲得這些複雜的物理知識,因此無法製作出符合物理特性的影片

GPT4Motion的優勢在於:確保產生的影片不僅與使用者輸入的提示一致,而且在物理上也是正確的。 GPT-4的語意理解和程式碼產生能力可以將使用者的提示轉換為Blender的Python腳本,該腳本可以驅動Blender的內建實體引擎來模擬對應的實體場景。此外,研究也使用了ControlNet,將Blender模擬的動態結果作為輸入,指導擴散模型逐幀產生影片

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

##利用GPT-4 啟動Blender 進行模擬操作

研究者觀察到,雖然 GPT-4 對 Blender 的 Python API 有一定的了解,但它根據使用者 prompt 產生 Blender 的 Python 腳本的能力仍然有所欠缺。一方面,要求 GPT-4 直接在 Blender 中創建哪怕是一個簡單的 3D 模型(如籃球)似乎都是一項艱鉅的任務。另一方面,由於 Blender 的 Python API 資源較少且 API 版本更新較快,GPT-4 很容易誤用某些功能或因版本差異而出錯。為了解決這些問題,研究提出了以下方案:

  1. 使用外部3D 模型
  2. 封裝Blender 函數
  3. 將使用者prompt 轉換為物理特性

圖3 顯示了該研究為GPT-4 設計的通用prompt 範本。它包括封裝的 Blender 函數、外部工具和使用者指令。研究者在模板中定義了虛擬世界的尺寸標準,並提供了有關攝影機位置和視角的資訊。這些資訊有助於 GPT-4 更能理解三維空間的佈局。之後基於使用者輸入的 prompt 產生對應的指令,引導 GPT-4 產生對應的 Blender Python 腳本。最後,透過該腳本,Blender 渲染出物體的邊緣和深度,並以影像序列的形式輸出。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#重寫後的內容:製作遵循物理規律的影片

這項研究旨在根據使用者提供的提示和Blender所提供的相應物理運動條件,產生與文字內容一致且視覺效果逼真的影片。為此,研究採用了擴散模型XL(SDXL)來完成生成任務,並對其進行了改進

  1. 物理運動約束
  2. 時間一致性限制

實驗結果

#控制物理特性

圖4展示了GPT4Motion在三種提示下產生的籃球運動視頻,涉及籃球的下落和碰撞。在圖4的左側,籃球在旋轉時保持了高度逼真的紋理,並準確地複製了與地面碰撞後的彈跳行為。圖4的中間顯示,此方法可以精確控制籃球的數量,並有效地產生多個籃球落地時發生的碰撞和彈跳。令人驚訝的是,如圖4右側所示,當使用者要求將籃球拋向攝影機時,GPT-4會根據生成腳本中籃球的下落時間計算出必要的初始速度,從而實現逼真的視覺效果。這表明,GPT4Motion可以與GPT-4所掌握的物理知識相結合,從而控制生成的視頻內容

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

在風中飄動的布料。圖 5 和圖 6 驗證了 GPT4Motion 在產生在風力影響下運動的布匹的能力。利用現有的實體引擎進行模擬,GPT4Motion 可產生不同風力下布的波動和波浪。在圖 5 展示了一面飄動旗幟的生成結果。在不同風力下,旗幟呈現複雜的波紋和波浪圖案。圖 6 顯示了不規則布料物體 —— T 卹,在不同風力下的運動情況。受織物彈性和重量等物理特性的影響,T 卹發生了抖動和扭曲,並出現了明顯的褶皺變化。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#圖 7 展示了將不同黏度的水倒入馬克杯的三段影片。當水的黏度較低時,流動的水與杯子中的水發生碰撞並融合,形成複雜的湍流現象。隨著黏度的增加,水流變得緩慢,並且液體開始相互黏連在一起

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

#與基準方法對比

在圖1中,GPT4Motion與其他基準方法進行了直覺對比。很明顯,基線方法的結果與使用者的提示不符。 DirecT2V和Text2Video-Zero在紋理逼真度和動作一致性方面有缺陷,而AnimateDiff和ModelScope雖然提高了影片的流暢度,但在紋理一致性和動作逼真度方面仍有提升空間。與這些方法相比,GPT4Motion可以在籃球下落和與地板碰撞後的彈跳過程中產生平滑的紋理變化,看起來更加逼真

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

如圖8(第一行)所示,AnimateDiff 和Text2Video-Zero 產生的影片在旗幟上出現了偽影/ 扭曲,而ModelScope 和DirecT2V 則無法平滑地產生旗幟在風中飄動的漸變。但是,如圖 5 中間所示,GPT4Motion 產生的影片可以顯示出旗幟在重力和風力作用下皺紋和波紋的連續變化。

結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻

所有基準的結果都與使用者提示不符,如圖8中的第二行所示。儘管An​​imateDiff和ModelScope的影片反映了水流的變化,但它們無法捕捉到水倒入杯子的物理效果。另一方面,由Text2VideoZero和DirecT2V產生的影片則創造了一個不斷抖動的杯子。與此相比,如圖7(左)所示,GPT4Motion產生的影片準確地描述了水流與馬克杯碰撞時的激盪,效果更加逼真

有興趣的讀者可以閱讀原始論文,以了解更多的研究內容

以上是結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能