搜尋
首頁科技週邊人工智慧CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高品質單目動態重建新方法

單眼動態場景(Monocular Dynamic Sc​​ene)是指使用單眼相機觀察和分析的動態環境,其中物件可以在場景中自由移動。單眼動態場景重建在理解環境中的動態變化、預測物件運動軌跡以及產生動態數位資產等任務中具有關鍵意義。利用單眼視覺技術,可以實現動態場景的三維重建和模型估計,幫助我們更好地理解和處理動態環境中的各種情況。這種技術不僅可應用於電腦視覺領域,還可以在自動駕駛、擴增實境和虛擬實境等領域發揮重要作用。透過單眼動態場景重建,我們可以更準確地捕捉環境中物體的運動

隨著以神經輻射場(Neural Radiance Field, NeRF)為代表的神經渲染的興起,越來越多的工作開始使用隱式表徵(implicit representation)進行動態場景的三維重建。儘管基於 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經取得了令人滿意的渲染質量,他們仍然距離真正的照片級真實渲染(photo-realistic rendering)存在一定的距離。

來自浙江大學和位元組跳動的研究團隊指出,上述問題的核心在於基於光線投射(ray casting)的NeRF pipeline 透過逆向映射(backward-flow)將觀測空間(observation space)映射到規範空間(canonical space)時出現了準確性和清晰度方面的挑戰。逆向映射對於學習結構的收斂並不理想,導致目前的方法在 D-NeRF 資料集上僅能達到 30 等級的 PSNR 渲染指標。

為了解決這個挑戰,研究團隊提出了一個基於光柵化的單眼動態場景建模流程。他們首次將變形場與3D高斯結合,創造了一種新的方法,實現了高品質的重建和新視角渲染。這項研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Sc​​ene Reconstruction》已被電腦視覺領域頂尖國際學術會議CVPR 2024接受。這項工作中獨特的地方在於,它是第一個將變形場應用於3D高斯以拓展到單眼動態場景的研究。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

  • 專案首頁:https://ingra14m.github.io/Deformable-Gaussians/

  • 論文連結:https://arxiv.org/abs/2309.13101

  • 程式碼:https://github.com/ingra14m/Deformable-3D-Gaussians

實驗結果表明,變形場能夠有效地將規範空間中的3D高斯前向映射精確地映射到觀測空間。在D-NeRF資料集上,實現了10%以上的PSNR提升。此外,在真實場景中即使相機位姿不夠準確,也能夠增加渲染細節。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                   之後上使用範例 1 HyperNeRF 真實情境的實驗結果。

相關工作

動態場景重建一直以來都是三維重建的熱門議題。隨著以 NeRF 為代表的神經渲染實現了高品質的渲染,動態重建領域湧現了一系列以隱式表徵作為基礎的工作。 D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎上引入了變形場,實現了穩健的動態場景重建。 TiNeuVox,K-Planes 和 Hexplanes 在此基礎上引入了網格結構,大大加速了模型的訓練過程,渲染速度有一定的提高。然而這些方法都基於逆向映射,無法真正實現高品質的規範空間和變形場的解耦。

3D 高斯潑濺是一種基於光柵化的點雲渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創新的緻密化使得 3D 高斯不僅實現了 SOTA 的渲染質量,還實現了即時渲染。 Dynamic 3D 高斯首先將靜態的 3D 高斯拓展到了動態領域。然而,其只能處理多目場景非常嚴重地限制了其應用於更通用的情況,例如手機拍攝等單眼場景。

研究想法

Deformable-GS 的核心在於將靜態的 3D 高斯拓展到單眼動態場景。每一個 3D 高斯攜帶位置,旋轉,縮放,不透明度和 SH 係數用於影像層級的渲染。根據 3D 高斯 alpha-blend 的公式,不難發現,隨時間變化的位置,以及控制高斯形狀的旋轉和縮放是決定動態 3D 高斯的決定性參數。然而,不同於傳統的基於點雲的渲染方法,3D 高斯在初始化之後,位置,透明度等參數會隨著最佳化而不斷更新。這給動態高斯的學習增加了難度。

該研究創新地提出了變形場與 3D 高斯聯合優化的動態場景渲染框架。具體來說,該研究將COLMAP 或隨機點雲初始化的3D 高斯視為規範空間,隨後透過變形場,以規範空間中3D 高斯的座標資訊作為輸入,預測每一個3D 高斯隨時間變化的位置和形狀參數。利用變形場,研究可以將規範空間的 3D 高斯變換到觀測空間以進行光柵化渲染。此策略並不會影響 3D 高斯的可微光柵化 pipeline,而經過計算後的梯度可用於更新規範空間 3D 高斯的參數。

此外,引入變形場有利於動作幅度較大部分的高斯緻密化。這是因為動作幅度較大的區域變形場的梯度也會相對較高,從而指導相應區域在緻密化的過程中得到更精細的調控。即使規範空間 3D 高斯的數量和位置參數在初期也在不斷更新,但實驗結果表明,這種聯合優化的策略可以最終得到穩健的收斂結果。大約經過 20000 輪迭代,規範空間的 3D 高斯的位置參數幾乎不再改變。

研究團隊發現真實場景的相機位姿往往不夠準確,而動態場景更加劇了這個問題。這對於基於神經輻射場的結構來說並不會產生較大的影響,因為神經輻射場是基於多層感知機(Multilayer Perceptron,MLP),是一個非常平滑的結構。但 3D 高斯是基於點雲的顯式結構,略微不準確的相機位姿很難透過高斯潑濺得到較為穩健地矯正。

為了緩解這個問題,該研究創新地引入了退火平滑訓練(Annealing Smooth Training,AST)。此訓練機制旨在初期平滑 3D 高斯的學習,在後期增加渲染的細節。這機制的引入不僅提高了渲染的質量,而且大幅提高了時間插值任務的穩定性與平滑性。

圖 2 展示了本研究的 pipeline,詳情請參考論文原文。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                               作用中使用 2 此研究研究中的 pipeline。

結果展示

該研究首先在動態重建領域被廣泛使用的D-NeRF 資料集上進行了合成資料集的實驗。從圖 3 的可視化結果中不難看出,Deformable-GS 相比之前的方法有著非常巨大的渲染品質提升。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                               中對資料集 RF 1.

本研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的量化指標上也有相應的改進。值得注意的是,研究團隊發現 D-NeRF 資料集的 Lego 場景存在錯誤,即訓練集和測試集的場景具有微小的差異。這體現在 Lego 模型鏟子的翻轉角度不一致。這也是為什麼先前方法在 Lego 場景的指標無法提高的根本原因。為了實現有意義的比較,研究使用了 Lego 的驗證集作為指標測量的基準。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                 作用中使用 4 合成資料集的定量比較。

如圖4 所示,該研究在全解析度(800x800)下比較了SOTA 方法,其中包括了CVPR 2020 的D-NeRF,Sig Asia 2022 的TiNeuVox 和CVPR2023的Tensor4D,K-planes。研究提出的方法在各個渲染指標(PSNR、SSIM、LPIPS),各個場景下都取得了大幅的提升。

該研究提出的方法不僅能夠適用於合成場景,在相機位姿不夠準確的真實場景也取得了 SOTA 結果。如圖 5 所示,該研究在 NeRF-DS 資料集上與 SOTA 方法進行了比較。實驗結果表明,即使沒有對高光反射表面進行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場景設計的 NeRF-DS,取得了最佳的渲染效果。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                   之後上之後之後整合資料 5 個動態方式。

雖然 MLP 的引入增加了渲染開銷,但得益於 3D 高斯極其高效的 CUDA 實現與我們緊湊的 MLP 結構,我們依舊能夠做到實時渲染。在 3090 上 D-NeRF 資料集的平均 FPS 可以達到 85(400x400),68(800x800)。

此外,研究也首次應用了具有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示,此深度也證明了 Deformable-GS 也可以得到穩健的幾何表示。深度的反向傳播可以推動日後許多需要使用深度監督的任務,例如逆向渲染(Inverse Rendering),SLAM 與自動駕駛等。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                               圖6中視覺中使用。

作者簡介

論文第一作者:楊子逸,浙江大學碩士二年級,主要研究方向為三維高斯、神經輻射場、即時渲染等。

論文其他作者:高新宇,浙江大學碩士三年級,主要研究方向為神經輻射場,隱式場景組合。

張宇晴:浙江大學碩士二年級,主要研究方向為 3D 生成,逆向渲染。

論文通訊作者為浙江大學電腦科學與技術學院金小剛教授。

  • Email: jin@cad.zju.edu.cn

  • 個人主頁:http://www.cad.zju.edu. cn/home/jin/

#

以上是CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高品質單目動態重建新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)