幾分鐘產生四維內容，還能控制運動效果：北大、密西根提出DG4D-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

幾分鐘產生四維內容，還能控制運動效果：北大、密西根提出DG4D

王林

Jul 12, 2024 am 09:30 AM

工程商湯科技

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者潘亮博士目前是上海人工智慧實驗室的Research Scientist。此前，在2020年至2023年，他於新加坡南洋理工大學S-Lab擔任Research Fellow，指導老師為劉子緯教授。他的研究重點是電腦視覺、3D點雲和虛擬人類，並在頂級會議和期刊上發表了多篇論文，谷歌學術引用超過2700次。此外，他還多次擔任電腦視覺和機器學習等領域頂尖會議和期刊的審稿人。

近期，商湯科技- 南洋理工大學聯合AI 研究中心S-Lab ，上海人工智慧實驗室，北京大學與密西根大學聯合提出DreamGaussian4D（DG4D），透過結合空間變換的明確建模與靜態3D Gaussian Splatting（GS）技術實現高效四維內容生成。

四維內容生成近來取得了顯著進展，但是現有方法存在優化時間長、運動控制能力差、細節品質低等問題。 DG4D 提出了一個包含兩個主要模組的整體框架：1）圖像到4D GS - 我們首先使用DreamGaussianHD 生成靜態3D GS，接著基於HexPlane 生成基於高斯形變的動態生成；2）視頻到視頻紋理細化- 我們細化產生的UV 空間紋理映射，並透過使用預先訓練的影像到視訊擴散模型來增強其時間一致性。

值得注意的是，DG4D 將四維內容生成的優化時間從幾小時縮短到幾分鐘（如圖1 所示），允許視覺上控制生成的三維運動，並支持生成可以在三維引擎中真實渲染的動畫網格模型。

幾分鐘產生四維內容，還能控制運動效果：北大、密西根提出DG4D

論文名稱: DreamGaussian4D: Generative 4D Gaussian Splatting
主頁地址arxiv.org/abs/2312.17142
Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgaussian 圖1. DG4D 在四分半鐘內達到四維度內容優化基本收斂
問題和挑戰

生成模型可以大大簡化多樣化數位內容（如二維影像、影片和三維景物）的生產和製作，近年來取得了顯著進步。四維內容是諸如遊戲、影視等諸多下游任務的重要內容形式。四維生成內容也應支援導入傳統圖形學渲染引擎軟體（例如，Blender 或 Unreal Engine），以連接現有圖形學內容生產管線（見圖 2）。幾分鐘產生四維內容，還能控制運動效果：北大、密西根提出DG4D

儘管有一些研究致力於動態三維（即四維）生成，但四維景物的高效和高品質生成仍然存在挑戰。近年來，越來越多的研究方法透過結合影片和三維生成模型，約束任意視角下內容外觀和動作的一致性，以實現四維內容生成。

主流的四維內容生成方法都基於四維動態神經輻射場（4D NeRF）表示。例如，MAV3D [1] 透過在 HexPlane [2] 上提煉文字到影片的擴散模型，實現了文字到四維內容的生成。 Consistent4D [3] 引入了一個視訊到四維的框架，以優化級聯的 DyNeRF，從靜態捕獲的影片中產生四維景物。透過多重擴散模型的先驗，Animate124 [4] 能夠透過文字運動描述將單一未處理的二維影像動畫化為三維的動態影片。基於混合 SDS [5] 技術，4D-fy [6] 使用多個預訓練擴散模型可實現引人入勝的文本到四維內容的生成。

然而，所有上述現有方法 [1,3,4,6] 產生單一 4D NeRF 都需要數個小時，這極大地限制了它們的應用潛力。此外，它們都難以有效控製或選擇最後生成的運動。以上不足主要來自以下幾個因素：首先，前述方法的底層隱式四維表示不夠高效，存在渲染速度慢和運動規律性差的問題；其次，視頻SDS 的隨機性質增加了收斂難度，並在最終結果中引入了不穩定性和多種瑕疵偽影現象。

方法介紹

與直接優化 4D NeRF 的方法不同，DG4D 透過結合靜態高斯潑濺技術和顯式的空間變換建模，為四維內容生成構建了一個高效和強力的表徵。此外，視訊生成方法有潛力提供有價值的時空先驗，增強高品質的 4D 生成。具體而言，我們提出了一個包含兩個主要階段的整體框架：1）影像到 4D GS 的生成；2）基於視訊大模型的紋理圖細化。

1. 影像到4D GS 的產生

在這一階段中，我們使用靜態3D GS 及其空間變形來表示動態的四維景物。基於一張給定的二維圖片，我們使用增強方法 DreamGaussianHD 方法產生靜態 3D GS。隨後，透過在靜態 3D GS 函數上優化時間依賴的變形場，估計各個時間戳處的高斯變形，旨在讓變形後的每一幀的形狀和紋理都與驅動視頻裡面的對應幀盡力保持吻合。這一階段結束，將可產生一段動態的三維網格模型序列。

¹
DreamGaussianHD
基於近來使用3D GS 的圖生三維物體方法DreamGaussian [7]，我們做了一些進一步的改進，整理出一套效果更佳的3D GS 生成與初始化方法。主要改進的操作包括有 1）採取多視角的最佳化方式；2）設定最佳化過程中的渲染圖片背景為更適合生成的黑色背景。我們稱呼改良後的版本為 DreamGaussianHD，具體的改良效果圖可見圖 4。

^{Gaussian Deformation} 基於生成的靜態3D GS 模型，我們透過預測每一幀中高斯核的變形來產生符合期望視頻的動態4D GS 模型。在動態效果的表徵上，我們選用 HexPlane（如圖 5 所示）來預測每一個時間戳下高斯核位移、旋轉和比例尺度，從而驅動產生每一幀的動態模型。此外，我們也針對性地調整設計網絡，特別是對最後幾個線性操作的網絡層做了殘差連接和零初始化的設計，從而可以平滑充分地基於靜態3D GS 模型初始化動態場（效果如圖6 所示）。

2. 視訊到影片的紋理最佳化

  框架圖

類似於 DreamGaussian，在第一階段基於 4D GS 的四維動態模型生成結束後，可以提取四維的網格模型序列。而且，我們也可以類似 DreamGaussian 的做法，在網格模型的 UV 空間中對紋理做進一步的最佳化。有別於 DreamGaussian 只對單獨的三維網格模型使用圖片產生模型做紋理的最佳化，我們需要對整個三維網格序列做最佳化。

並且，我們發現如果沿用DreamGaussian 的做法，即對每個三維網格序列做獨立的紋理優化，會導致三維網格的紋理在不同的時間戳下有不一致的生成，並且常常會有閃爍等瑕疵偽影效果出現。有鑑於此，我們有別於 DreamGaussian，提出了基於視訊生成大模型的視訊到視訊的 UV 空間下紋理優化方法。具體而言，我們在優化過程中隨機生成了一系列相機軌跡，並基於此渲染出多個視頻，並對渲染出的視頻做相應的加噪和去噪處理，從而實現對生成網格模型序列的紋理增強。

基於圖片生成大模型和基於視頻生成大模型做的紋理優化效果對比展示在圖 8 中。

^{圖8 基於視訊到視訊的紋理最佳化可以實現時序上紋理的穩定性和一致性}

實驗結果

相比之前整體最佳化4D NeRF 的方法，DG4D 顯著減少了四維內容生成所需的時間。具體的用時對比可見表 1。

^{用中對維我們跟隨先前方法的比較方式，將產生的四維內容與給定圖片的一致程度報告在表2 中。}

    表 2 基於單圖產生的四維內容與圖片的一致性比較

^{對於基於影片產生四維內容的設置，影片產生四維內容方法的數值結果比較可見表 3。}

此外   我們也對最符合我們方法的單圖產生四維內容的各個方法的生成結果做了用戶採樣測試，測試的結果報告在表4 中。

對 SoTA 的圖產生四維內容方法和影片產生四維內容方法的效果比較圖，分別展示在圖9和圖10 中。

   圖 10 視訊中建立四維內容效果圖

此外，我們還基於近期的直接前饋實現單圖生成 3D GS 的方法（即非使用 SDS 優化方法），做了靜態三維內容的生成，並基於此初始化了動態 4D GS 的生成。直接前饋生成 3D GS，可以比基於 SDS 優化的方法，更快得到品質更高，也更多樣化的三維內容。基於此得到的四維內容，展示在圖 11 中。

^{的四維內容展示在圖 12 中。}

結語

基於 4D GS，我們提出了 DreamGaussian4D（DG4D），這是一個高效的圖像到 4D 生成框架。相較於現存的四維內容生成框架，DG4D 顯著將優化時間從幾小時縮短到幾分鐘。此外，我們展示了使用生成的影片進行驅動運動生成，實現了視覺可控的三維運動生成。最後，DG4D 允許進行三維網格模型提取，並支持實現時序上保持連貫一致的高品質紋理最佳化。我們希望 DG4D 提出的四維內容生成框架，將促進四維內容生成方向的研究工作，並有助於多樣化的實際應用。

References
[1] Singer et al. "Text-to-4D dynamic scene generation." Proceedings of the 40008.

^{[ 2] Cao et al. "Hexplane: A fast representation for dynamic scenes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.}. 360° Dynamic Object Generation from Monocular Video." The Twelfth International Conference on Learning Representations. 2023.

[4] Zhao et al. "Animate124: 4157 月 15 月 124:202124: 102124: 102124: 102124: 12124: 12124: 12124: 12124: 202124 212124：202124：202124: 12124: 202124) 125) 4603 (2023).

[5] Poole et al. "DreamFusion: Text-to-3D using 2D Diffusion." The Eleventh International Conference on Learning Represcomations. 2022. , Sherwin, et al. "4d-fy: Text-to-4d generation using hybrid score distillation sampling." arXiv preprint arXiv:2311.17984 (2023).
Gaussian Splatting for Efficient 3D Content Creation." The Twelfth International Conference on Learning Representations. 2023.

以上是幾分鐘產生四維內容，還能控制運動效果：北大、密西根提出DG4D的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言