Stable Diffusion背後公司Stability AI又上新了。
這次帶來的是圖生3D方面的新進展:
基於Stable Video Diffusion的Stable Video 3D(SV3D),只用一張圖片就能產生高品質3D網格。
Stable Video Diffusion (SVD)是Stability AI之前發布的一個用於產生高解析度視訊的模型。 SV3D的問世標誌著視訊擴散模型首次成功運用到3D生成領域。
官方表示,基於此,SV3D大大提高了3D產生的品質和視圖一致性。
模型權重依然開源,不過僅可用於非商業用途,想要商用的話還得買個Stability AI會員~
話不多說,還是來扒一扒論文細節。
引入潛在視訊擴散模型,SV3D的核心目的是利用視訊模型的時間一致性來提高3D產生的一致性。
且視訊資料本身也比3D資料更容易取得。
Stability AI這次提供兩個版本的SV3D:
研究人員也改進了3D最佳化技術:採用由粗到細的訓練策略,優化NeRF和DMTet網格來產生3D物件。
他們還設計了一個名為掩碼得分蒸餾採樣(SDS)的特殊損失函數,透過優化在訓練資料中不直接可見的區域,來提高產生3D模型的品質和一致性。
同時,SV3D引入了一個基於球面高斯的照明模型,用於分離光照效果和紋理,在保持紋理清晰度的同時有效減少了內建照明問題。
具體到架構方面,SV3D包含以下關鍵組成部分:
相機的運動軌跡資訊和擴散噪聲的時間資訊會一起輸入到殘差模組中,轉換為正弦位置嵌入,然後這些嵌入資訊會被整合並進行線性變換,加入到噪聲時間步長嵌入中。
這樣的設計旨在透過精細控制相機軌跡和雜訊輸入,提升模型處理影像的能力。
此外,SV3D在生成過程中採用CFG(無分類器引導)來控制生成的清晰度,特別是在生成軌道的最後幾幀時,採用三角形CFG縮放來避免過度銳利化。
研究人員在Objaverse資料集上訓練SV3D,影像解析度為575×576,視場角為33.8度。論文透露,所有三種模型(SV3D_u,SV3D_c,SV3D_p)在4個節點上訓練了6天左右,每個節點配備8個80GB的A100 GPU。
在新視角合成(NVS)和3D重建方面,SV3D超過了現有其他方法,達到SOTA。
從定性比較的結果來看,SV3D產生的多重視角試圖,細節更豐富,更接近與原始輸入影像。也就是說,SV3D在理解和重構物體的3D結構方面,能夠更精確地捕捉細節,並保持視角變換時的一致性。
這樣的成果,引發了不少網友的感慨:
可以想像,在未來6-12個月內,3D生成技術將會被用到遊戲和影片專案中。
評論區也總少不了一些大膽的想法…
並且專案開源嘛,已經有第一波小夥伴玩上了,在4090上就能跑起來。
參考連結:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。
以上是Stability AI開源上新:3D生成引入視頻擴散模型,品質一致性up,4090可玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!