Stable Diffusion背後公司Stability AI又上新了。
這次帶來的是圖生3D方面的新進展:
基於Stable Video Diffusion的Stable Video 3D(SV3D),只用一張圖片就能產生高品質3D網格。
Stable Video Diffusion (SVD)是Stability AI之前發布的一個用於產生高解析度視訊的模型。 SV3D的問世標誌著視訊擴散模型首次成功運用到3D生成領域。
官方表示,基於此,SV3D大大提高了3D產生的品質和視圖一致性。
模型權重依然開源,不過僅可用於非商業用途,想要商用的話還得買個Stability AI會員~
話不多說,還是來扒一扒論文細節。
將視訊擴散模型用於3D生成
引入潛在視訊擴散模型,SV3D的核心目的是利用視訊模型的時間一致性來提高3D產生的一致性。
且視訊資料本身也比3D資料更容易取得。
Stability AI這次提供兩個版本的SV3D:
- SV3D_u:基於單張影像產生軌道影片。
- SV3D_p:擴充了SV3D_u的功能,可以根據指定的相機路徑建立3D模型影片。
研究人員也改進了3D最佳化技術:採用由粗到細的訓練策略,優化NeRF和DMTet網格來產生3D物件。
他們還設計了一個名為掩碼得分蒸餾採樣(SDS)的特殊損失函數,透過優化在訓練資料中不直接可見的區域,來提高產生3D模型的品質和一致性。
同時,SV3D引入了一個基於球面高斯的照明模型,用於分離光照效果和紋理,在保持紋理清晰度的同時有效減少了內建照明問題。
具體到架構方面,SV3D包含以下關鍵組成部分:
- UNet:SV3D是在SVD的基礎上建構的,包含一個多層UNet,其中每一層都有一系列殘差區塊(包括3D卷積層)和兩個分別處理空間和時間資訊的Transformer模組。
- 條件輸入:輸入影像透過VAE編碼器嵌入到潛在空間中,會和雜訊潛在狀態合併,一起輸入到UNet中;輸入影像的CLIP嵌入矩陣則被用作每個Transformer模組交叉注意力層的鍵值對。
- 相機軌跡編碼:SV3D設計了靜態和動態兩種類型的軌道來研究相機姿態條件的影響。在靜態軌道中,相機以規律間隔的方位角圍繞物件;動態軌道則允許不規則間隔的方位角和不同的仰角。
相機的運動軌跡資訊和擴散噪聲的時間資訊會一起輸入到殘差模組中,轉換為正弦位置嵌入,然後這些嵌入資訊會被整合並進行線性變換,加入到噪聲時間步長嵌入中。
這樣的設計旨在透過精細控制相機軌跡和雜訊輸入,提升模型處理影像的能力。
此外,SV3D在生成過程中採用CFG(無分類器引導)來控制生成的清晰度,特別是在生成軌道的最後幾幀時,採用三角形CFG縮放來避免過度銳利化。
研究人員在Objaverse資料集上訓練SV3D,影像解析度為575×576,視場角為33.8度。論文透露,所有三種模型(SV3D_u,SV3D_c,SV3D_p)在4個節點上訓練了6天左右,每個節點配備8個80GB的A100 GPU。
實驗結果
在新視角合成(NVS)和3D重建方面,SV3D超過了現有其他方法,達到SOTA。
從定性比較的結果來看,SV3D產生的多重視角試圖,細節更豐富,更接近與原始輸入影像。也就是說,SV3D在理解和重構物體的3D結構方面,能夠更精確地捕捉細節,並保持視角變換時的一致性。
這樣的成果,引發了不少網友的感慨:
可以想像,在未來6-12個月內,3D生成技術將會被用到遊戲和影片專案中。
評論區也總少不了一些大膽的想法…
並且專案開源嘛,已經有第一波小夥伴玩上了,在4090上就能跑起來。
參考連結:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。
以上是Stability AI開源上新:3D生成引入視頻擴散模型,品質一致性up,4090可玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!

掌握Microsoft Excel的圓形功能,以獲得精確的數值數據 數字是電子表格的基礎,但是實現準確性和可讀性通常不僅需要原始數據。 Microsoft Excel的圓形功能是TRA的強大工具

增強AI智能:深入研究LlamainDex的反射性AI代理 想像一個AI不僅可以解決問題,而且還反映了自己的改進思維過程。這是反光AI代理的領域,本文探討了

利用Langchain和向量嵌入以增強內容檢索 先前的文章涵蓋了與查詢相關內容提取的數據加載和分裂技術。 本文使用向量嵌入來深入研究高級數據檢索

數據科學職業:頂級公司和2024年成功的技巧 近期的數據科學畢業生和旨在跨國公司(MNC)的最終工程專業的學生有很多選擇。 本指南重點介紹了僱用數據SC的領先公司

通過生成AI增強客戶體驗:一種戰略方法 客戶滿意度至關重要,企業越來越認識到提供出色的體驗的必要性。 超過70%的客戶希望個性化服務

AI每週摘要:開創性的創新和道德考慮 歡迎回到Av Bytes,這是您每週最令人興奮的AI進步的綜述!本週的亮點展示了文本到圖像生成的顯著進步,模型效率

引言 想像一下,您置身於一場科技大會,周圍環繞著志同道合的同行、有影響力的技術專家和 IT 愛好者。人群中,您偶然聽到兩位專業人士在討論他們的工作——一位數據科學家,對機器學習在疾病預測中的應用充滿熱情;另一位計算機科學家,在解釋他為軟件設計的新架構時也興致勃勃。細細聆聽,您會發現,儘管他們的目標都與技術相關,但他們所使用的策略和工具卻大相徑庭。這一發現激發了您的好奇心:數據科學和計算機科學究竟有何區別?讓我們一起踏上這段旅程,深入了解這兩個引人入勝的領域,它們的具體內容以及未來技術專家的發展方

穩定的擴散:深入研究AI圖像生成 穩定的擴散已徹底改變了AI圖像的產生,從而從噪聲或文本提示中創建了高質量的圖像。這個強大的生成模型利用了幾個關鍵組件W


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

記事本++7.3.1
好用且免費的程式碼編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版
中文版,非常好用

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器