單眼動態場景(Monocular Dynamic Scene)是指使用單眼相機觀察和分析的動態環境,其中物件可以在場景中自由移動。單眼動態場景重建在理解環境中的動態變化、預測物件運動軌跡以及產生動態數位資產等任務中具有關鍵意義。利用單眼視覺技術,可以實現動態場景的三維重建和模型估計,幫助我們更好地理解和處理動態環境中的各種情況。這種技術不僅可應用於電腦視覺領域,還可以在自動駕駛、擴增實境和虛擬實境等領域發揮重要作用。透過單眼動態場景重建,我們可以更準確地捕捉環境中物體的運動
隨著以神經輻射場(Neural Radiance Field, NeRF)為代表的神經渲染的興起,越來越多的工作開始使用隱式表徵(implicit representation)進行動態場景的三維重建。儘管基於 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經取得了令人滿意的渲染質量,他們仍然距離真正的照片級真實渲染(photo-realistic rendering)存在一定的距離。
來自浙江大學和位元組跳動的研究團隊指出,上述問題的核心在於基於光線投射(ray casting)的NeRF pipeline 透過逆向映射(backward-flow)將觀測空間(observation space)映射到規範空間(canonical space)時出現了準確性和清晰度方面的挑戰。逆向映射對於學習結構的收斂並不理想,導致目前的方法在 D-NeRF 資料集上僅能達到 30 等級的 PSNR 渲染指標。
為了解決這個挑戰,研究團隊提出了一個基於光柵化的單眼動態場景建模流程。他們首次將變形場與3D高斯結合,創造了一種新的方法,實現了高品質的重建和新視角渲染。這項研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被電腦視覺領域頂尖國際學術會議CVPR 2024接受。這項工作中獨特的地方在於,它是第一個將變形場應用於3D高斯以拓展到單眼動態場景的研究。
專案首頁:https://ingra14m.github.io/Deformable-Gaussians/
論文連結:https://arxiv.org/abs/2309.13101
程式碼:https://github.com/ingra14m/Deformable-3D-Gaussians
實驗結果表明,變形場能夠有效地將規範空間中的3D高斯前向映射精確地映射到觀測空間。在D-NeRF資料集上,實現了10%以上的PSNR提升。此外,在真實場景中即使相機位姿不夠準確,也能夠增加渲染細節。
之後上使用範例 1 HyperNeRF 真實情境的實驗結果。
相關工作
動態場景重建一直以來都是三維重建的熱門議題。隨著以 NeRF 為代表的神經渲染實現了高品質的渲染,動態重建領域湧現了一系列以隱式表徵作為基礎的工作。 D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎上引入了變形場,實現了穩健的動態場景重建。 TiNeuVox,K-Planes 和 Hexplanes 在此基礎上引入了網格結構,大大加速了模型的訓練過程,渲染速度有一定的提高。然而這些方法都基於逆向映射,無法真正實現高品質的規範空間和變形場的解耦。
3D 高斯潑濺是一種基於光柵化的點雲渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創新的緻密化使得 3D 高斯不僅實現了 SOTA 的渲染質量,還實現了即時渲染。 Dynamic 3D 高斯首先將靜態的 3D 高斯拓展到了動態領域。然而,其只能處理多目場景非常嚴重地限制了其應用於更通用的情況,例如手機拍攝等單眼場景。
研究想法
Deformable-GS 的核心在於將靜態的 3D 高斯拓展到單眼動態場景。每一個 3D 高斯攜帶位置,旋轉,縮放,不透明度和 SH 係數用於影像層級的渲染。根據 3D 高斯 alpha-blend 的公式,不難發現,隨時間變化的位置,以及控制高斯形狀的旋轉和縮放是決定動態 3D 高斯的決定性參數。然而,不同於傳統的基於點雲的渲染方法,3D 高斯在初始化之後,位置,透明度等參數會隨著最佳化而不斷更新。這給動態高斯的學習增加了難度。
該研究創新地提出了變形場與 3D 高斯聯合優化的動態場景渲染框架。具體來說,該研究將COLMAP 或隨機點雲初始化的3D 高斯視為規範空間,隨後透過變形場,以規範空間中3D 高斯的座標資訊作為輸入,預測每一個3D 高斯隨時間變化的位置和形狀參數。利用變形場,研究可以將規範空間的 3D 高斯變換到觀測空間以進行光柵化渲染。此策略並不會影響 3D 高斯的可微光柵化 pipeline,而經過計算後的梯度可用於更新規範空間 3D 高斯的參數。
此外,引入變形場有利於動作幅度較大部分的高斯緻密化。這是因為動作幅度較大的區域變形場的梯度也會相對較高,從而指導相應區域在緻密化的過程中得到更精細的調控。即使規範空間 3D 高斯的數量和位置參數在初期也在不斷更新,但實驗結果表明,這種聯合優化的策略可以最終得到穩健的收斂結果。大約經過 20000 輪迭代,規範空間的 3D 高斯的位置參數幾乎不再改變。
研究團隊發現真實場景的相機位姿往往不夠準確,而動態場景更加劇了這個問題。這對於基於神經輻射場的結構來說並不會產生較大的影響,因為神經輻射場是基於多層感知機(Multilayer Perceptron,MLP),是一個非常平滑的結構。但 3D 高斯是基於點雲的顯式結構,略微不準確的相機位姿很難透過高斯潑濺得到較為穩健地矯正。
為了緩解這個問題,該研究創新地引入了退火平滑訓練(Annealing Smooth Training,AST)。此訓練機制旨在初期平滑 3D 高斯的學習,在後期增加渲染的細節。這機制的引入不僅提高了渲染的質量,而且大幅提高了時間插值任務的穩定性與平滑性。
圖 2 展示了本研究的 pipeline,詳情請參考論文原文。
作用中使用 2 此研究研究中的 pipeline。
結果展示
該研究首先在動態重建領域被廣泛使用的D-NeRF 資料集上進行了合成資料集的實驗。從圖 3 的可視化結果中不難看出,Deformable-GS 相比之前的方法有著非常巨大的渲染品質提升。
中對資料集 RF 1.
本研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的量化指標上也有相應的改進。值得注意的是,研究團隊發現 D-NeRF 資料集的 Lego 場景存在錯誤,即訓練集和測試集的場景具有微小的差異。這體現在 Lego 模型鏟子的翻轉角度不一致。這也是為什麼先前方法在 Lego 場景的指標無法提高的根本原因。為了實現有意義的比較,研究使用了 Lego 的驗證集作為指標測量的基準。
作用中使用 4 合成資料集的定量比較。
如圖4 所示,該研究在全解析度(800x800)下比較了SOTA 方法,其中包括了CVPR 2020 的D-NeRF,Sig Asia 2022 的TiNeuVox 和CVPR2023的Tensor4D,K-planes。研究提出的方法在各個渲染指標(PSNR、SSIM、LPIPS),各個場景下都取得了大幅的提升。
該研究提出的方法不僅能夠適用於合成場景,在相機位姿不夠準確的真實場景也取得了 SOTA 結果。如圖 5 所示,該研究在 NeRF-DS 資料集上與 SOTA 方法進行了比較。實驗結果表明,即使沒有對高光反射表面進行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場景設計的 NeRF-DS,取得了最佳的渲染效果。
之後上之後之後整合資料 5 個動態方式。
圖6中視覺中使用。
作者簡介
論文通訊作者為浙江大學電腦科學與技術學院金小剛教授。
Email: jin@cad.zju.edu.cn
個人主頁:http://www.cad.zju.edu. cn/home/jin/
以上是CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高品質單目動態重建新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

去噪扩散模型(DDM)是目前广泛应用于图像生成的一种方法。最近,XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件,他们发现DDM的生成能力逐渐下降,但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型,去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型(DDM),通过学习一个去噪自动编码器(DAE),能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver CS6
視覺化網頁開發工具