首頁  >  文章  >  科技週邊  >  Stability AI開源上新:3D生成引入視頻擴散模型,品質一致性up,4090可玩

Stability AI開源上新:3D生成引入視頻擴散模型,品質一致性up,4090可玩

WBOY
WBOY轉載
2024-03-20 14:25:18959瀏覽

Stable Diffusion背後公司Stability AI又上新了。

這次帶來的是圖生3D方面的新進展:

基於Stable Video Diffusion的Stable Video 3D(SV3D),只用一張圖片就能產生高品質3D網格。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD)是Stability AI之前發布的一個用於產生高解析度視訊的模型。 SV3D的問世標誌著視訊擴散模型首次成功運用到3D生成領域。

官方表示,基於此,SV3D大大提高了3D產生的品質和視圖一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

模型權重依然開源,不過僅可用於非商業用途,想要商用的話還得買個Stability AI會員~

話不多說,還是來扒一扒論文細節。

將視訊擴散模型用於3D生成

引入潛在視訊擴散模型,SV3D的核心目的是利用視訊模型的時間一致性來提高3D產生的一致性。

且視訊資料本身也比3D資料更容易取得。

Stability AI這次提供兩個版本的SV3D:

  • SV3D_u:基於單張影像產生軌道影片。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p:擴充了SV3D_u的功能,可以根據指定的相機路徑建立3D模型影片。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究人員也改進了3D最佳化技術:採用由粗到細的訓練策略,優化NeRF和DMTet網格來產生3D物件。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

他們還設計了一個名為掩碼得分蒸餾採樣(SDS)的特殊損失函數,透過優化在訓練資料中不直接可見的區域,來提高產生3D模型的品質和一致性。

同時,SV3D引入了一個基於球面高斯的照明模型,用於分離光照效果和紋理,在保持紋理清晰度的同時有效減少了內建照明問題。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

具體到架構方面,SV3D包含以下關鍵組成部分:

  • UNet:SV3D是在SVD的基礎上建構的,包含一個多層UNet,其中每一層都有一系列殘差區塊(包括3D卷積層)和兩個分別處理空間和時間資訊的Transformer模組。
  • 條件輸入:輸入影像透過VAE編碼器嵌入到潛在空間中,會和雜訊潛在狀態合併,一起輸入到UNet中;輸入影像的CLIP嵌入矩陣則被用作每個Transformer模組交叉注意力層的鍵值對。
  • 相機軌跡編碼:SV3D設計了靜態和動態兩種類型的軌道來研究相機姿態條件的影響。在靜態軌道中,相機以規律間隔的方位角圍繞物件;動態軌道則允許不規則間隔的方位角和不同的仰角。

相機的運動軌跡資訊和擴散噪聲的時間資訊會一起輸入到殘差模組中,轉換為正弦位置嵌入,然後這些嵌入資訊會被整合並進行線性變換,加入到噪聲時間步長嵌入中。

這樣的設計旨在透過精細控制相機軌跡和雜訊輸入,提升模型處理影像的能力。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

此外,SV3D在生成過程中採用CFG(無分類器引導)來控制生成的清晰度,特別是在生成軌道的最後幾幀時,採用三角形CFG縮放來避免過度銳利化。

研究人員在Objaverse資料集上訓練SV3D,影像解析度為575×576,視場角為33.8度。論文透露,所有三種模型(SV3D_u,SV3D_c,SV3D_p)在4個節點上訓練了6天左右,每個節點配備8個80GB的A100 GPU。

實驗結果

在新視角合成(NVS)和3D重建方面,SV3D超過了現有其他方法,達到SOTA。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

從定性比較的結果來看,SV3D產生的多重視角試圖,細節更豐富,更接近與原始輸入影像。也就是說,SV3D在理解和重構物體的3D結構方面,能夠更精確地捕捉細節,並保持視角變換時的一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

這樣的成果,引發了不少網友的感慨:

可以想像,在未來6-12個月內,3D生成技術將會被用到遊戲和影片專案中。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

評論區也總少不了一些大膽的想法…

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

並且專案開源嘛,已經有第一波小夥伴玩上了,在4090上就能跑起來。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

參考連結:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

以上是Stability AI開源上新:3D生成引入視頻擴散模型,品質一致性up,4090可玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除