Heim > Artikel > Technologie-Peripheriegeräte > CVPR 2024-Partiturarbeit: Die Zhejiang-Universität schlägt eine neue Methode zur hochwertigen monokularen dynamischen Rekonstruktion auf der Grundlage verformbarer dreidimensionaler Gauß-Funktionen vor
Monokulare dynamische Szene bezieht sich auf eine dynamische Umgebung, die mit einer monokularen Kamera beobachtet und analysiert wird, in der sich Objekte in der Szene frei bewegen können. Die monokulare dynamische Szenenrekonstruktion ist von entscheidender Bedeutung für Aufgaben wie das Verständnis dynamischer Veränderungen in der Umgebung, die Vorhersage von Objektbewegungsbahnen und die Generierung dynamischer digitaler Assets. Mithilfe der monokularen Sehtechnologie können eine dreidimensionale Rekonstruktion und Modellschätzung dynamischer Szenen erreicht werden, was uns hilft, verschiedene Situationen in dynamischen Umgebungen besser zu verstehen und damit umzugehen. Diese Technologie kann nicht nur im Bereich Computer Vision eingesetzt werden, sondern spielt auch in Bereichen wie autonomes Fahren, Augmented Reality und Virtual Reality eine wichtige Rolle. Durch die monokulare dynamische Szenenrekonstruktion können wir die Bewegung von Objekten in der Umgebung genauer erfassen.
Mit dem Aufkommen des neuronalen Renderings, das durch das Neural Radiance Field (NeRF) dargestellt wird, beginnen immer mehr Arbeiten, versteckte 3D-Rekonstruktionen dynamischer Szenen durchzuführen implizite Darstellung. Obwohl einige repräsentative Werke, die auf NeRF basieren, wie D-NeRF, Nerfies, K-planes usw., eine zufriedenstellende Wiedergabequalität erreicht haben, sind sie noch weit von einer echten fotorealistischen Wiedergabe entfernt.
Das Forschungsteam der Zhejiang-Universität und ByteDance wies darauf hin, dass der Kern des oben genannten Problems darin besteht, dass die auf Ray Casting basierende NeRF-Pipeline den Beobachtungsraum durch Rückwärtsfluss auf den kanonischen Raum abbildet, was zu Genauigkeits- und Klarheitsproblemen führt. Die inverse Zuordnung ist für die Konvergenz der erlernten Struktur nicht ideal, was dazu führt, dass aktuelle Methoden im D-NeRF-Datensatz nur PSNR-Rendering-Indikatoren mit mehr als 30 Ebenen erreichen.
Um diese Herausforderung zu lösen, schlug das Forschungsteam einen monokularen dynamischen Szenenmodellierungsprozess vor, der auf Rasterisierung basiert. Sie kombinierten erstmals Deformationsfelder mit 3D-Gauß-Funktionen und schufen so eine neue Methode, die eine hochwertige Rekonstruktion und eine neue perspektivische Darstellung ermöglicht. Dieses Forschungspapier „Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction“ wurde von CVPR 2024, der führenden internationalen akademischen Konferenz im Bereich Computer Vision, angenommen. Das Besondere an dieser Arbeit ist, dass es sich um die erste Studie handelt, die Deformationsfelder auf 3D-Gaußkurven anwendet, um sie auf monokulare dynamische Szenen auszudehnen.
Projekthomepage: https://ingra14m.github.io/Deformable-Gaussians/
Papierlink: https://arxiv.org/abs/2309.13101
Code: https: //github.com/ingra14m/Deformable-3D-Gaussians
Die experimentellen Ergebnisse zeigen, dass das verformbare Feld die 3D-Gaußsche Vorwärtsabbildung im kanonischen Raum effektiv und genau auf den Beobachtungsraum abbilden kann. Beim D-NeRF-Datensatz wurde eine PSNR-Verbesserung von mehr als 10 % erreicht. Darüber hinaus können in realen Szenen die Rendering-Details erhöht werden, auch wenn die Kamerahaltung nicht genau genug ist. N Abbildung 1 experimentelles Ergebnis der realen Szene von Hypernerf.
Verwandte ArbeitenDie dynamische Szenenrekonstruktion war schon immer ein heißes Thema bei der 3D-Rekonstruktion. Da das durch NeRF dargestellte neuronale Rendering ein qualitativ hochwertiges Rendering ermöglicht, ist im Bereich der dynamischen Rekonstruktion eine Reihe von Arbeiten entstanden, die auf impliziter Darstellung basieren. D-NeRF und Nerfies führen Deformationsfelder basierend auf der NeRF-Raycasting-Pipeline ein, um eine robuste dynamische Szenenrekonstruktion zu erreichen. TiNeuVox, K-Planes und Hexplanes führen auf dieser Basis eine Gitterstruktur ein, die den Modelltrainingsprozess erheblich beschleunigt und die Rendering-Geschwindigkeit verbessert. Diese Methoden basieren jedoch alle auf der inversen Abbildung und können keine wirklich hochwertige Entkopplung von Eichraum und Deformationsfeldern erreichen.
3D Gaussian Splash ist eine Punktwolken-Rendering-Pipeline, die auf Rasterisierung basiert. Seine CUDA-maßgeschneiderte differenzierbare Gaußsche Rasterisierungspipeline und die innovative Verdichtung ermöglichen es 3D-Gaußian nicht nur, SOTA-Rendering-Qualität zu erreichen, sondern auch Echtzeit-Rendering zu erreichen. Dynamischer 3D-Gauß erweitert zunächst den statischen 3D-Gauß auf das dynamische Feld. Allerdings schränkt seine Fähigkeit, nur Multi-View-Szenen zu verarbeiten, seine Anwendung in allgemeineren Situationen, wie Single-View-Szenen wie bei Handyaufnahmen, stark ein.Forschungsideen
Der Kern von Deformable-GS besteht darin, statische 3D-Gaußsche Szenen auf monokulare dynamische Szenen zu erweitern. Jeder 3D-Gauß-Wert trägt Position, Drehung, Skalierung, Deckkraft und SH-Koeffizienten für die Darstellung auf Bildebene. Gemäß der Formel der 3D-Gaußschen Alphamischung ist es nicht schwer herauszufinden, dass die Position über die Zeit sowie die Rotation und Skalierung, die die Gaußsche Form steuert, die entscheidenden Parameter sind, die den dynamischen 3D-Gaußschen Verlauf bestimmen. Im Gegensatz zu herkömmlichen punktwolkenbasierten Rendering-Methoden werden Parameter wie Position und Transparenz jedoch nach der Initialisierung von 3D-Gauß durch Optimierung kontinuierlich aktualisiert. Dies erschwert das Erlernen dynamischer Gauß-Funktionen.Diese Forschung schlägt auf innovative Weise ein dynamisches Szenen-Rendering-Framework vor, das gemeinsam mit Deformationsfeldern und 3D-Gauß-Funktionen optimiert wird. Insbesondere behandelt diese Studie durch COLMAP initialisierte 3D-Gaußsche oder zufällige Punktwolken als kanonischen Raum und verwendet dann das Verformungsfeld, um die Koordinateninformationen der 3D-Gaußschen im kanonischen Raum als Eingabe zu verwenden, um die Position und Form jedes 3D-Gaußschen zu vorhersagen im Laufe der Zeit. Mithilfe von Deformationsfeldern kann diese Studie einen 3D-Gaußschen Raum vom kanonischen Raum in den Beobachtungsraum für die gerasterte Darstellung umwandeln. Diese Strategie hat keinen Einfluss auf die differenzierbare Rasterisierungspipeline von 3D-Gauß-Funktionen, und die von ihr berechneten Gradienten können zur Aktualisierung der Parameter der 3D-Gauß-Funktionen im kanonischen Raum verwendet werden.
Darüber hinaus ist die Einführung eines Verformungsfeldes vorteilhaft für die Gaußsche Verdichtung von Teilen mit größeren Bewegungsbereichen. Dies liegt daran, dass der Gradient des Verformungsfeldes in Bereichen mit größeren Bewegungsamplituden relativ höher ist, was dazu führt, dass die entsprechenden Bereiche während des Verdichtungsprozesses feiner reguliert werden. Auch wenn die Anzahl und Positionsparameter der 3D-Gaußschen Werte im kanonischen Raum im Frühstadium ständig aktualisiert werden, zeigen die experimentellen Ergebnisse, dass diese gemeinsame Optimierungsstrategie letztendlich robuste Konvergenzergebnisse erzielen kann. Nach etwa 20.000 Iterationen ändern sich die Positionsparameter des 3D-Gauß-Operators im kanonischen Raum kaum noch.
Das Forschungsteam stellte fest, dass Kamerapositionen in realen Szenen oft nicht genau genug sind und dynamische Szenen dieses Problem verschärfen. Auf die auf dem neuronalen Strahlungsfeld basierende Struktur wird dies keine großen Auswirkungen haben, da das neuronale Strahlungsfeld auf dem Multilayer-Perzeptron (MLP) basiert und eine sehr glatte Struktur darstellt. Allerdings basiert 3D-Gauß auf der expliziten Struktur von Punktwolken, und leicht ungenaue Kamerapositionen lassen sich durch Gauß-Splashing nur schwer robust korrigieren.
Um dieses Problem zu lindern, wurde in dieser Studie das Annealing Smooth Training (AST) innovativ eingeführt. Dieser Trainingsmechanismus soll das Erlernen von 3D-Gauß-Funktionen in der frühen Phase erleichtern und die Rendering-Details in der späteren Phase verbessern. Die Einführung dieses Mechanismus verbessert nicht nur die Qualität des Renderings, sondern verbessert auch die Stabilität und Glätte der zeitlichen Interpolationsaufgabe erheblich.
Abbildung 2 zeigt die Pipeline dieser Forschung. Einzelheiten finden Sie im Originalpapier. Abbildung 2 Die Pipeline dieser Studie.
ErgebnisanzeigeDiese Studie führte zunächst Experimente mit synthetischen Datensätzen am D-NeRF-Datensatz durch, der im Bereich der dynamischen Rekonstruktion weit verbreitet ist. Aus den Visualisierungsergebnissen in Abbildung 3 ist nicht schwer zu erkennen, dass Deformable-GS im Vergleich zur vorherigen Methode eine enorme Verbesserung der Rendering-Qualität aufweist. Abbildung 3 Qualitative experimentelle Vergleichsergebnisse dieser Studie zum D-NeRF-Datensatz.
Die in dieser Studie vorgeschlagene Methode hat nicht nur erhebliche Verbesserungen bei den visuellen Effekten erzielt, sondern auch entsprechende Verbesserungen bei den quantitativen Rendering-Indikatoren. Es ist erwähnenswert, dass das Forschungsteam Fehler in den Lego-Szenen des D-NeRF-Datensatzes festgestellt hat, d. h. es gibt geringfügige Unterschiede zwischen den Szenen im Trainingssatz und im Testsatz. Dies spiegelt sich im inkonsistenten Kippwinkel der Lego-Modellschaufel wider. Dies ist auch der wesentliche Grund, warum die Indikatoren der bisherigen Methode in der Lego-Szene nicht verbessert werden können. Um aussagekräftige Vergleiche zu ermöglichen, verwendete die Studie den Validierungssatz von Lego als Basis für metrische Messungen. Abbildung 4 Quantitativer Vergleich synthetischer Datensätze.
Wie in Abbildung 4 dargestellt, verglich diese Studie SOTA-Methoden bei voller Auflösung (800 x 800), einschließlich D-NeRF von CVPR 2020, TiNeuVox von Sig Asia 2022 und Tensor4D von CVPR2023, K-Ebenen. Die in dieser Studie vorgeschlagene Methode hat bei verschiedenen Rendering-Indikatoren (PSNR, SSIM, LPIPS) und in verschiedenen Szenarien erhebliche Verbesserungen erzielt.Die in dieser Studie vorgeschlagene Methode ist nicht nur auf synthetische Szenen anwendbar, sondern erzielt auch SOTA-Ergebnisse in realen Szenen, in denen die Kamerahaltung nicht genau genug ist. Wie in Abbildung 5 dargestellt, wird diese Studie mit der SOTA-Methode für den NeRF-DS-Datensatz verglichen. Experimentelle Ergebnisse zeigen, dass die in dieser Studie vorgeschlagene Methode auch ohne spezielle Verarbeitung stark lichtreflektierender Oberflächen NeRF-DS, das speziell für stark lichtreflektierende Szenen entwickelt wurde, immer noch übertreffen und den besten Rendering-Effekt erzielen kann.
方法 Abbildung 5 Methodenvergleich in realen Szenen.Obwohl die Einführung von MLP den Rendering-Overhead erhöht, können wir dank der äußerst effizienten CUDA-Implementierung von 3D Gaussian und unserer kompakten MLP-Struktur immer noch Echtzeit-Rendering erreichen. Auf 3090 kann die durchschnittliche FPS des D-NeRF-Datensatzes 85 (400 x 400) bzw. 68 (800 x 800) erreichen.
Darüber hinaus wendet diese Forschung erstmals auch eine differenzierbare Gaußsche Rasterisierungspipeline mit Vorwärts- und Rückwärts-Tiefenausbreitung an. Wie in Abbildung 6 dargestellt, beweist diese Tiefe auch, dass Deformable-GS auch robuste geometrische Darstellungen erhalten kann. Deep Backpropagation kann viele Aufgaben fördern, die in Zukunft eine umfassende Überwachung erfordern, wie z. B. Inverse Rendering (Inverse Rendering), SLAM und autonomes Fahren. Abbildung 6 Tiefenvisualisierung.Der erste Autor des Artikels: Yang Ziyi, ein Masterstudent im zweiten Jahr an der Zhejiang-Universität. Seine Hauptforschungsrichtungen sind dreidimensionale Gaußsche Felder, neuronale Strahlungsfelder, Echtzeit-Rendering, usw.
Andere Autoren des Artikels: Gao Xinyu, ein Masterstudent im dritten Jahr an der Zhejiang-Universität. Sein Forschungsschwerpunkt sind neuronale Strahlungsfelder und implizite Szenenkombinationen.
Zhang Yuqing: Masterstudentin im zweiten Jahr an der Zhejiang-Universität. Ihre Hauptforschungsrichtung ist 3D-Generierung und Reverse Rendering.Der korrespondierende Autor des Artikels ist Professor Jin Xiaogang von der School of Computer Science and Technology der Zhejiang University.
E-Mail: jin@cad.zju.edu.cnDas obige ist der detaillierte Inhalt vonCVPR 2024-Partiturarbeit: Die Zhejiang-Universität schlägt eine neue Methode zur hochwertigen monokularen dynamischen Rekonstruktion auf der Grundlage verformbarer dreidimensionaler Gauß-Funktionen vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!