Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

WBOY
WBOYOriginal
2024-06-02 18:57:35796Durchsuche

Vorher geschrieben und nach persönlichem Verständnis des Autors

Die bildbasierte 3D-Rekonstruktion ist eine anspruchsvolle Aufgabe, bei der aus einer Reihe von Eingabebildern auf die 3D-Form eines Objekts oder einer Szene geschlossen werden muss. Lernbasierte Methoden haben wegen ihrer Fähigkeit, 3D-Formen direkt abzuschätzen, Aufmerksamkeit erregt. Dieser Übersichtsartikel konzentriert sich auf modernste 3D-Rekonstruktionstechniken, einschließlich der Generierung neuartiger, unsichtbarer Ansichten. Es wird ein Überblick über die jüngsten Entwicklungen bei Gaußschen Splash-Methoden gegeben, einschließlich Eingabetypen, Modellstrukturen, Ausgabedarstellungen und Trainingsstrategien. Auch ungelöste Herausforderungen und zukünftige Ausrichtungen werden besprochen. Angesichts der rasanten Fortschritte auf diesem Gebiet und der zahlreichen Möglichkeiten zur Verbesserung der 3D-Rekonstruktionsmethoden scheint eine gründliche Untersuchung des Algorithmus von entscheidender Bedeutung zu sein. Daher bietet diese Studie einen umfassenden Überblick über die jüngsten Fortschritte in der Gaußschen Streuung.

Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

(Wischen Sie mit dem Daumen nach oben, klicken Sie auf die Karte oben, um mir zu folgen. Der gesamte Vorgang dauert nur 1,328 Sekunden, und dann werden Ihnen in Zukunft alle kostenlosen Inhalte weggenommen. , falls es einen passenden Inhalt gibt. Sind Sie hilfreich?)

Einführung in die 3D-Rekonstruktion und die Synthese neuer Ansichten

3D-Rekonstruktion und NVS sind zwei eng verwandte Bereiche in der Computergrafik, deren Ziel es ist, realistisch zu erfassen und darzustellen 3D-Darstellungen physischer Szenen. Bei der 3D-Rekonstruktion werden geometrische und Erscheinungsbildinformationen aus einer Reihe von 2D-Bildern extrahiert, die normalerweise aus verschiedenen Blickwinkeln aufgenommen werden. Obwohl es viele Techniken für das 3D-Scannen gibt, ist die Erfassung verschiedener 2D-Bilder eine sehr einfache und rechentechnisch kostengünstige Möglichkeit, Informationen über eine 3D-Umgebung zu sammeln. Diese Informationen können dann verwendet werden, um ein 3D-Modell der Szene zu erstellen, das für verschiedene Zwecke verwendet werden kann, beispielsweise für Virtual-Reality-Anwendungen (VR), Augmented-Reality-Overlays (AR) oder computergestützte Design-Modellierung (CAD). .

NVS hingegen konzentriert sich auf die Generierung einer neuen 2D-Ansicht der Szene aus einem zuvor erfassten 3D-Modell. Dies ermöglicht die Erstellung fotorealistischer Bilder einer Szene aus jedem gewünschten Blickwinkel, auch wenn das Originalbild nicht aus diesem Blickwinkel aufgenommen wurde. Jüngste Fortschritte beim Deep Learning haben zu erheblichen Verbesserungen bei der 3D-Rekonstruktion und NVS geführt. Deep-Learning-Modelle können verwendet werden, um effizient 3D-Geometrie und -Erscheinungsbild aus Bildern zu extrahieren, und solche Modelle können auch verwendet werden, um realistische neuartige Ansichten aus 3D-Modellen zu generieren. Dadurch erfreuen sich diese Technologien in verschiedenen Anwendungen immer größerer Beliebtheit und werden in Zukunft voraussichtlich eine noch wichtigere Rolle spielen.

In diesem Abschnitt wird erläutert, wie 3D-Daten gespeichert oder dargestellt werden. Anschließend werden die am häufigsten verwendeten öffentlichen Datensätze für diese Aufgabe vorgestellt. Anschließend werden verschiedene Algorithmen erläutert, wobei der Schwerpunkt hauptsächlich auf dem Gaußschen Spritzen liegt.

3D-Datendarstellung

Die komplexe räumliche Beschaffenheit dreidimensionaler Daten, einschließlich volumetrischer Abmessungen, ermöglicht eine detaillierte Darstellung von Zielen und Umgebungen. Dies ist entscheidend für die Erstellung immersiver Simulationen und genauer Modelle in verschiedenen Forschungsbereichen. Die mehrdimensionale Struktur dreidimensionaler Daten ermöglicht die Kombination von Tiefe, Breite und Höhe, was zu erheblichen Fortschritten in Disziplinen wie Architekturdesign und medizinischer Bildgebungstechnik führt.

Die Wahl der Datendarstellung spielt eine entscheidende Rolle beim Design vieler 3D-Deep-Learning-Systeme. Punktwolken haben keine gitterartige Struktur und können im Allgemeinen nicht direkt gefaltet werden. Andererseits erfordern Voxeldarstellungen, die durch gitterartige Strukturen gekennzeichnet sind, häufig einen hohen Rechenspeicherbedarf.

Die Entwicklung der 3D-Darstellung geht mit der Art und Weise einher, wie 3D-Daten oder Modelle gespeichert werden. Die am häufigsten verwendeten 3D-Datendarstellungen lassen sich in traditionelle und neuartige Methoden unterteilen. Traditionelle Ansätze: Punktwolke s

  • Datensatz

Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

Dreidimensionale Rekonstruktion mit NVS-Technologie

    Um den aktuellen Fortschritt auf diesem Gebiet zu beurteilen, wurde eine Literaturstudie durchgeführt, um relevante wissenschaftliche Arbeiten zu identifizieren und sorgfältig zu überprüfen. Die Analyse konzentriert sich insbesondere auf zwei Schlüsselbereiche: 3D-Rekonstruktion und NVS. Die Entwicklung der volumetrischen 3D-Rekonstruktion aus mehreren Kamerabildern erstreckt sich über Jahrzehnte und findet vielfältige Anwendungen in der Computergrafik, Robotik und medizinischen Bildgebung. Im nächsten Abschnitt wird der aktuelle Stand dieser Technologie untersucht.
  • Photogrammetrie: Seit den 1980er Jahren sind fortschrittliche Photogrammetrie- und Stereo-Vision-Technologien entstanden, um entsprechende Punkte in Stereobildpaaren automatisch zu identifizieren. Photogrammetrie ist eine Methode, die Fotografie und Computer Vision kombiniert, um 3D-Modelle von Objekten oder Szenen zu erstellen. Dazu ist es erforderlich, Bilder aus verschiedenen Winkeln aufzunehmen und Software wie Agisoft Metashape zu verwenden, um die Kameraposition abzuschätzen und Punktwolken zu erzeugen. Diese Punktwolke wird dann in ein texturiertes 3D-Netz umgewandelt und ermöglicht so die Erstellung detaillierter und fotorealistischer Visualisierungen rekonstruierter Objekte oder Szenen.
  • Struktur aus Bewegung: In den 1990er Jahren erlangte die SFM-Technologie Bedeutung, die in der Lage war, 3D-Strukturen und Kamerabewegungen aus 2D-Bildsequenzen zu rekonstruieren. SFM ist der Prozess der Schätzung der 3D-Struktur einer Szene aus einer Reihe von 2D-Bildern. SFM erfordert Punktkorrelationen zwischen Bildern. Finden Sie entsprechende Punkte, indem Sie Merkmale abgleichen oder Punkte in mehreren Bildern verfolgen, und triangulieren Sie, um 3D-Standorte zu finden.

    Deep Learning: In den letzten Jahren wurde Deep-Learning-Technologie, insbesondere Convolutional Neural Networks (CNNs), integriert. Deep-Learning-basierte Methoden gewinnen in der 3D-Rekonstruktion zunehmend an Bedeutung. Am bemerkenswertesten ist das 3D Occupancy Network, eine neuronale Netzwerkarchitektur, die für das Verständnis und die Rekonstruktion von 3D-Szenen entwickelt wurde. Dabei wird der 3D-Raum in kleine volumetrische Einheiten oder Voxel unterteilt, wobei jedes Voxel angibt, ob es ein Ziel enthält oder leerer Raum ist. Diese Netzwerke nutzen Deep-Learning-Techniken wie 3D-Faltungs-Neuronale Netzwerke, um die Voxelbelegung vorherzusagen, was sie für Anwendungen wie Robotik, autonome Fahrzeuge, Augmented Reality und 3D-Szenenrekonstruktion wertvoll macht. Diese Netzwerke sind stark auf Faltungen und Transformatoren angewiesen. Sie sind von entscheidender Bedeutung für Aufgaben wie Kollisionsvermeidung, Pfadplanung und Echtzeitinteraktion mit der physischen Welt. Darüber hinaus können 3D-Belegungsnetzwerke die Unsicherheit abschätzen, können jedoch beim Umgang mit dynamischen oder komplexen Szenen rechnerische Einschränkungen aufweisen. Fortschritte in der Architektur neuronaler Netzwerke verbessern weiterhin deren Genauigkeit und Effizienz.

    Neural Radiation Field: NeRF wurde 2020 eingeführt und kombiniert neuronale Netze mit klassischen dreidimensionalen Rekonstruktionsprinzipien und hat in der Computervision und Grafik große Aufmerksamkeit erregt. Es rekonstruiert detaillierte 3D-Szenen, indem es Volumenfunktionen modelliert und Farbe und Dichte mithilfe neuronaler Netze vorhersagt. NeRFs werden häufig in der Computergrafik und der virtuellen Realität verwendet. Kürzlich hat NeRF durch umfangreiche Forschung die Genauigkeit und Effizienz verbessert. Neuere Forschungen haben auch die Anwendbarkeit von NeRF in Unterwasserszenarien untersucht. Während eine robuste Darstellung der 3D-Szenengeometrie bereitgestellt wird, bestehen immer noch Herausforderungen wie Rechenanforderungen. Zukünftige NeRF-Forschung muss sich auf Interpretierbarkeit, Echtzeit-Rendering, neuartige Anwendungen und Skalierbarkeit konzentrieren und den Weg für virtuelle Realität, Spiele und Robotik ebnen.

    Gaußsche Streuung: Im Jahr 2023 erscheint schließlich die 3D-Gaußsche Streuung als neue Echtzeit-3D-Rendering-Technologie. Im nächsten Abschnitt wird dieser Ansatz ausführlich besprochen.

    Die Grundlagen des GAUSSIAN SPLATTING

    Gaussian Splash verwendet viele 3D-Gaußsche oder Partikel, um eine 3D-Szene darzustellen, die jeweils mit Positions-, Ausrichtungs-, Skalierungs-, Deckkraft- und Farbinformationen ausgestattet sind. Um diese Partikel zu rendern, konvertieren Sie sie in den 2D-Raum und organisieren Sie sie strategisch für ein optimales Rendering.

    Abbildung 4 zeigt die Architektur des Gaußschen Splash-Algorithmus. Im ursprünglichen Algorithmus werden die folgenden Schritte ausgeführt:

    • Struktur aus Bewegung
    • Konvertierung in Gaußsche Splats
    • Training
    • Differenzierbare Gaußsche Rasterisierung

    STAND DER KUNST

    In den nächsten beiden Abschnitten wird es so sein erforschte verschiedene Anwendungen und Weiterentwicklungen von Gaussian Splash und befasste sich dabei mit seiner Verwendung in den Bereichen autonomes Fahren, Avatare, Komprimierung, Diffusion, Dynamik und Verformung, Bearbeitung, textbasierte Generierung, Netzextraktion und -physik, Regularisierung und Optimierung, Rendering, spärliche Darstellung und Anders Implementierungen in Bereichen wie Simultaneous Localization and Mapping (SLAM). Jede Unterkategorie wird untersucht, um einen Einblick in die Vielseitigkeit der Gaußschen Splash-Methoden bei der Bewältigung spezifischer Herausforderungen und der Erzielung erheblicher Fortschritte in diesen verschiedenen Bereichen zu geben. Abbildung 5 zeigt die vollständige Liste aller Methoden.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    FUNKTIONALE FORTSCHRITTE

    In diesem Abschnitt werden die Fortschritte untersucht, die seit der Einführung des Gaußschen Splash-Algorithmus bei den funktionalen Fähigkeiten erzielt wurden.

    Dynamik und Verformungen

    Im Vergleich zum allgemeinen Gaußschen Splash, bei dem alle Parameter der 3D-Kovarianzmatrix nur vom Eingabebild abhängen, hängen in diesem Fall einige Parameter ab, um die Dynamik des Splash über die Zeit zu erfassen auf Zeit oder Zeitschritt. Die Position hängt beispielsweise vom Zeitschritt oder Frame ab. Diese Position kann zeitkonsistent bis zum nächsten Frame aktualisiert werden. Es ist auch möglich, einige zugrunde liegende Kodierungen zu erlernen, mit denen Gaußsche Werte in jedem Zeitschritt während des Renderns bearbeitet oder verbreitet werden können, um bestimmte Effekte zu erzielen, wie z. B. Ausdrucksänderungen bei Avataren und die Anwendung von Kräften auf nicht starre Körper. Abbildung 6 zeigt einige auf Dynamik und Verformung basierende Methoden.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Dynamische und verformbare Modelle können leicht durch geringfügige Modifikationen der ursprünglichen Gaußschen Splash-Darstellung dargestellt werden:

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Bewegung und Tracking

    Der größte Teil der Arbeit im Zusammenhang mit dynamischen Gaußschen Splash wurde auf 3D-Gauß erweitert Bewegungsverfolgung über Zeitschritte hinweg, statt eines separaten Spritzers für jeden Zeitschritt. Katsumata et al. schlugen die Fourier-Näherung der Position und die lineare Näherung der Rotationsquaternion vor.

    Der Artikel von Luiten et al. stellt eine Methode vor, um die vollen 6 Freiheitsgrade aller 3D-Punkte in dynamischen Szenen zu erfassen. Durch die Einbeziehung lokaler Steifigkeitsbeschränkungen stellt der dynamische 3D-Gaußsche Operator eine konsistente räumliche Rotation dar und ermöglicht so eine dichte 6-DOF-Verfolgung und -Rekonstruktion, ohne dass Korrespondenz oder Streaming-Eingaben erforderlich sind. Diese Methode übertrifft PIP bei der 2D-Verfolgung und erreicht einen zehnmal geringeren mittleren Flugbahnfehler, eine höhere Flugbahngenauigkeit und eine Überlebensrate von 100 %. Diese vielseitige Darstellung erleichtert Anwendungen wie 4D-Videobearbeitung, Ego-View-Synthese und dynamische Szenengenerierung.

    Lin et al. stellen ein neues Dual Domain Deformation Model (DDDM) vor, das explizit darauf ausgelegt ist, die Attributdeformation jedes Gaußschen Punktes zu modellieren. Das Modell verwendet eine Fourier-Reihenanpassung im Frequenzbereich und eine Polynomanpassung im Zeitbereich, um zeitabhängige Residuen zu erfassen. DDDM zeichnet sich durch die Handhabung von Deformationen in komplexen Videoszenen aus, ohne dass für jeden Frame ein separates 3D-Gaussian-Splash-Modell (3D-GS) trainiert werden muss. Insbesondere garantiert die explizite Deformationsmodellierung mit diskreten Gaußschen Punkten ein schnelles Training und 4D-Szenenrendering, ähnlich dem ursprünglichen 3D-GS für die statische 3D-Rekonstruktion. Dieser Ansatz führt zu erheblichen Effizienzsteigerungen, da das Training im Vergleich zur 3D-GS-Modellierung fast fünfmal schneller ist. Allerdings gibt es Möglichkeiten für Verbesserungen bei der Beibehaltung feiner Strukturen mit hoher Wiedergabetreue im endgültigen Rendering.

    Ausdrucks- oder Emotionsvariation und bearbeitbar in Avataren

    Shao et al. führten GaussianPlanes ein, eine 4D-Darstellung, die durch ebenenbasierte Zerlegung in dreidimensionalem Raum und Zeit erreicht wird und die Effektivität der 4D-Bearbeitung verbessert. Darüber hinaus nutzt Control4D einen 4D-Generator, um den kontinuierlichen Erstellungsbereich inkonsistenter Fotos zu optimieren, was zu einer besseren Konsistenz und Qualität führt. Die vorgeschlagene Methode verwendet GaussianPlanes, um implizite Darstellungen von 4D-Porträtszenen zu trainieren, die dann mithilfe von Gauß-Rendering in latente Merkmale und RGB-Bilder gerendert werden. Ein auf einem Generative Adversarial Network (GAN) basierender Generator und ein auf 2D-Diffusion basierender Editor verfeinern den Datensatz und generieren echte und gefälschte Bilder zur Differenzierung. Die Diskriminanzergebnisse tragen zur iterativen Aktualisierung des Generators und Diskriminators bei. Dieser Ansatz steht jedoch vor Herausforderungen bei der Handhabung schneller und ausgedehnter nichtstarrer Bewegungen, da er auf kanonischen Gaußschen Punktwolken mit Strömungsdarstellungen beruht. Diese Methode unterliegt ControlNet, wodurch die Bearbeitung auf eine grobe Ebene beschränkt wird und eine präzise Bearbeitung von Ausdrücken oder Aktionen verhindert wird. Darüber hinaus erfordert der Bearbeitungsprozess eine iterative Optimierung und es fehlt eine einstufige Lösung.

    Nicht starre oder verformbare Objekte

    Die implizite neuronale Darstellung bringt erhebliche Änderungen bei der dynamischen Szenenrekonstruktion und -wiedergabe mit sich. Moderne dynamische neuronale Rendering-Methoden stoßen jedoch auf Herausforderungen bei der Erfassung komplexer Details und der Echtzeit-Rendering dynamischer Szenen.

    Um diese Herausforderungen anzugehen, schlugen Yang et al. verformbare 3D-Gauß-Funktionen für die hochauflösende monokulare dynamische Szenenrekonstruktion vor. Es wird eine neue verformbare 3D-GS-Methode vorgeschlagen. Die Methode nutzt 3D-Gauß-Funktionen, die in einem kanonischen Raum mit einem Deformationsfeld erlernt wurden, das speziell für monokulare dynamische Szenen entwickelt wurde. Diese Methode führt einen AST-Mechanismus (Annealing Smooth Training) ein, der auf reale monokulare dynamische Szenen zugeschnitten ist und die Auswirkungen falscher Posen auf die zeitliche Interpolationsaufgabe effektiv löst, ohne zusätzlichen Trainingsaufwand zu verursachen. Durch die Verwendung eines differenziellen Gaußschen Rasterisierers verbessert Deformable 3D Gaussian nicht nur die Rendering-Qualität, sondern erreicht auch Echtzeitgeschwindigkeit und übertrifft bestehende Methoden in beiden Aspekten. Diese Methode hat sich für Aufgaben wie NVS als gut geeignet erwiesen und bietet aufgrund ihrer punktbasierten Natur Vielseitigkeit für Postproduktionsaufgaben. Experimentelle Ergebnisse unterstreichen die überlegenen Rendering-Effekte und die Echtzeitleistung dieser Methode und bestätigen ihre Wirksamkeit bei der dynamischen Szenenmodellierung.

    DIFFUSION

    Diffusion und Gaussian Splash ist eine leistungsstarke Technik zum Generieren von 3D-Objekten aus Textbeschreibungen/-hinweisen. Es kombiniert die Vorteile zweier verschiedener Methoden: Diffusionsmodelle und Gaußsche Streuung. Diffusionsmodelle sind neuronale Netze, die lernen, aus verrauschten Eingaben Bilder zu erzeugen. Indem es dem Modell eine Reihe immer saubererer Bilder zuführt, lernt es, den Prozess der Bildverfälschung umzukehren und schließlich saubere Bilder aus völlig zufälligen Eingaben zu erzeugen. Damit lassen sich Bilder aus Textbeschreibungen generieren, da das Modell lernen kann, Wörter mit entsprechenden visuellen Merkmalen zu verknüpfen. Die Text-zu-3D-Pipeline mit Diffusion und Gauß-Splash funktioniert, indem sie zunächst mithilfe eines Diffusionsmodells eine anfängliche 3D-Punktwolke aus einer Textbeschreibung generiert. Mithilfe der Gaußschen Streuung wird dann die Punktwolke in eine Reihe von Gaußschen Kugeln umgewandelt. Abschließend wird die Gaußsche Kugel gerendert, um ein 3D-Bild des Ziels zu erzeugen.

    Textbasierte Generierung

    Die Arbeit von Yi et al. stellt Gaussian Dreamer vor, eine Text-zu-3D-Methode, die 3D- und 2D-Diffusionsmodelle durch Gaußsche Aufteilung nahtlos verbindet und so 3D-Konsistenz und komplexe Detailgenerierung gewährleistet. Abbildung 7 zeigt das vorgeschlagene Modell zur Generierung von Bildern. Um den Inhalt weiter anzureichern, werden Rauschpunktwachstum und Farbstörung als Ergänzung zum initialisierten 3D-Gaußschen eingeführt. Diese Methode zeichnet sich dadurch aus, dass sie einfach und effektiv ist und 3D-Instanzen innerhalb von 15 Minuten auf einer einzigen GPU generiert, was im Vergleich zu früheren Methoden eine höhere Geschwindigkeit darstellt. Die generierten dreidimensionalen Instanzen können direkt in Echtzeit gerendert werden, was die Praktikabilität dieser Methode unterstreicht. Das Gesamtgerüst umfasst die Initialisierung mithilfe eines 3D-Diffusionsmodells und die Optimierung mithilfe eines 2D-Diffusionsmodells. Dies ermöglicht die Erstellung hochwertiger und vielfältiger 3D-Assets aus Texthinweisen durch Nutzung der Vorteile beider Diffusionsmodelle.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Chen et al. schlugen die auf Gaußscher Streuung basierende Text-zu-3D-Generierung (GSGEN) vor, eine Methode zur Text-zu-3D-Generierung, die 3D-Gaußsche Werte als Darstellungen verwendet. Durch die Nutzung geometrischer Prioritäten heben wir die einzigartigen Vorteile der Gaußschen Streuung bei der Text-zu-3D-Generierung hervor. Die zweistufige Optimierungsstrategie kombiniert die gemeinsame Führung von 2D- und 3D-Diffusion zu einer kohärenten Rohstruktur in der Geometrieoptimierung, die dann in einer kompaktheitsbasierten Erscheinungsbildverfeinerung verdichtet wird.

    Rauschunterdrückung und Optimierung

    Das GaussianDiffusion-Framework von Li et al. stellt einen neuartigen Text-zu-3D-Ansatz dar, der Gaußsche Splash- und Langevin-Diffusionsmodelle nutzt, um das Rendern zu beschleunigen und einen beispiellosen Realismus zu erreichen. Die Einführung von strukturiertem Rauschen löst die Herausforderung der Multi-View-Geometrie, während das Variations-Gaußsche Streumodell Konvergenzprobleme und Artefakte lindert. Während die aktuellen Ergebnisse einen verbesserten Realismus zeigen, zielt die laufende Forschung darauf ab, die durch Variations-Gauß-Funktionen verursachte Unschärfe und Trübung zu verfeinern, um sie weiter zu verbessern.

    Yang et al. führen eine gründliche Untersuchung bestehender Diffusionspriors durch und schlagen einen einheitlichen Rahmen zur Verbesserung dieser Priors durch Optimierung der Rauschunterdrückungswerte vor. Die Vielseitigkeit des Ansatzes erstreckt sich auf eine Vielzahl von Anwendungsfällen und liefert durchweg erhebliche Leistungsverbesserungen. Bei experimentellen Auswertungen erreicht unser Ansatz eine beispiellose Leistung und übertrifft zeitgenössische Methoden. Trotz des Erfolgs bei der Verfeinerung 3D-generierter Texturen gibt es immer noch Raum für Verbesserungen bei der Verbesserung der Geometrie der generierten 3D-Modelle.

    OPTIMIERUNG UND GESCHWINDIGKEIT

    In diesem Unterabschnitt werden von Forschern entwickelte Techniken für schnellere Trainings- und/oder Inferenzgeschwindigkeiten erörtert. In der Studie von Chung et al. wird eine Methode vorgestellt, um die Gaußsche Streuung für die Darstellung von 3D-Szenen mithilfe einer begrenzten Anzahl von Bildern zu optimieren und gleichzeitig das Überanpassungsproblem zu mildern. Die herkömmliche Methode zur Darstellung von 3D-Szenen mit Gaußschen Streupunkten kann zu einer Überanpassung führen, insbesondere wenn die verfügbaren Bilder begrenzt sind. Diese Technik verwendet Tiefenkarten aus einem vorab trainierten monokularen Tiefenschätzungsmodell als geometrische Leitlinien und richtet sie an spärlichen Merkmalspunkten aus einer SFM-Pipeline aus. Diese tragen dazu bei, die 3D-Gaußsche Streuung zu optimieren, schwebende Artefakte zu reduzieren und geometrische Kohärenz sicherzustellen. Die vorgeschlagene tiefengesteuerte Optimierungsstrategie wird am LLFF-Datensatz getestet und zeigt eine verbesserte Geometrie im Vergleich zur reinen Verwendung von Bildern. Die Forschung umfasst die Einführung einer Frühstoppstrategie und eines Glättungsterms für Tiefenkarten, die beide zur Verbesserung der Leistung beitragen. Es werden jedoch auch Einschränkungen anerkannt, beispielsweise das Vertrauen auf die Genauigkeit des monokularen Tiefenschätzungsmodells und das Vertrauen auf die Leistung von COLMAP. Zukünftige Arbeiten werden empfohlen, um die gegenseitige Abhängigkeit der geschätzten Tiefen zu untersuchen und die Herausforderungen der Tiefenschätzung in schwierigen Regionen wie texturlosen Ebenen oder dem Himmel anzugehen.

    Fu et al. führten COLMAP Free 3D Gaussian Splatting (CF-3DGS) ein, ein neues End-to-End-Framework für die gleichzeitige Kamerapositionsschätzung und NVS aus Sequenzbildern, das das Problem der Kamerabewegung in früheren Methoden löst durch die lange Dauer des Yamato-Trainings. Im Gegensatz zur impliziten Darstellung von NeRF verwendet CF-3DGS explizite Punktwolken zur Darstellung der Szene. Die Methode verarbeitet Eingabebilder sequentiell und erweitert den 3D-Gauß-Wert schrittweise, um die gesamte Szene zu rekonstruieren, was eine verbesserte Leistung und Robustheit bei anspruchsvollen Szenen wie 360°-Videos demonstriert. Diese Methode optimiert Kamerapositionen und 3D-GS gemeinsam nacheinander und eignet sich daher besonders für Videostreaming oder geordnete Bildaufnahme. Die Verwendung des Gaußschen Spritzens ermöglicht schnelle Trainings- und Inferenzgeschwindigkeiten und demonstriert die Vorteile dieses Ansatzes gegenüber früheren Methoden. Obwohl die Wirksamkeit nachgewiesen ist, wird anerkannt, dass die sequentielle Optimierung Anwendungen in erster Linie auf geordnete Bildsammlungen beschränkt und Raum für die Erforschung von Erweiterungen auf ungeordnete Bildsammlungen in zukünftigen Forschungen lässt.

    RENDERING- UND SHADING-METHODEN

    Yu et al. beobachteten in 3D-GS, dass Artefakte in NVS auftraten, insbesondere wenn die Abtastrate geändert wurde. Die vorgestellte Lösung besteht darin, einen 3D-Glättungsfilter zu integrieren, um die maximale Frequenz der 3D-Gaußschen Grundelemente anzupassen und so Artefakte beim Out-of-Distribution-Rendering zu beseitigen. Darüber hinaus wurde der 2D-Dilatationsfilter durch einen 2D-Mip-Filter ersetzt, um Aliasing- und Dilatationsprobleme zu beheben. Die Auswertung von Benchmark-Datensätzen zeigt die Wirksamkeit von Mip Splatting, insbesondere bei der Änderung der Abtastrate. Die vorgeschlagenen Änderungen sind prinzipiell, unkompliziert und erfordern nur minimale Änderungen am ursprünglichen 3D-GS-Code. Es gibt jedoch anerkannte Einschränkungen, wie z. B. den durch die Gaußsche Filternäherung verursachten Fehler und einen leichten Anstieg des Trainingsaufwands. Diese Studie stellt Mip Splatting als wettbewerbsfähige Lösung vor, die Leistungsgleichheit mit modernsten Methoden und überlegene Generalisierung in Out-of-Distribution-Szenarien demonstriert und ihre Fähigkeit demonstriert, Alias-freies Rendering in jedem Maßstab zu erreichen.

    Gao et al. schlugen eine neue 3D-Punktwolken-Rendering-Methode vor, die in der Lage ist, Materialien und Beleuchtung aus Bildern mit mehreren Ansichten zu zerlegen. Das Framework ermöglicht Szenenbearbeitung, Raytracing und Neubeleuchtung in Echtzeit auf unterscheidbare Weise. Jeder Punkt in der Szene wird durch ein „wiederbeleuchtbares“ 3D-Gauß-Bild dargestellt, das Informationen über seine Normalrichtung, Materialeigenschaften wie die bidirektionale Reflexionsverteilungsfunktion (BRDF) und einfallendes Licht aus verschiedenen Richtungen enthält. Zur genauen Beleuchtungsschätzung wird das einfallende Licht in globale und lokale Komponenten aufgeteilt und die Sichtbarkeit basierend auf dem Betrachtungswinkel berücksichtigt. Die Szenenoptimierung nutzt 3D-Gaußsches Spritzen, während das physikalisch basierte differenzierbare Rendering BRDF und die Beleuchtungszerlegung übernimmt. Ein innovativer punktbasierter Raytracing-Ansatz nutzt begrenzende Volumenhierarchien, um ein effizientes Sichtbarkeitsbacken und realistische Schatten während des Echtzeit-Renderings zu ermöglichen. Experimente zeigen, dass BRDF-Schätzung und Ansichtsrendering im Vergleich zu bestehenden Methoden besser sind. Bei Szenen, die keine klaren Grenzen haben und bei der Optimierung Zielmasken erfordern, bestehen jedoch immer noch Herausforderungen. Zukünftige Arbeiten könnten die Integration von Multi-View-Stereo-Hinweisen (MVS) untersuchen, um die geometrische Genauigkeit von Punktwolken zu verbessern, die durch 3D-Gaußsche Streuung erzeugt werden. Diese „zuverlässige 3D-Gauß-Pipeline“ demonstriert vielversprechende Echtzeit-Rendering-Fähigkeiten und öffnet die Tür zu revolutionären netzbasierten Grafiken über einen punktwolkenbasierten Ansatz, der Neubeleuchtung, Bearbeitung und Raytracing ermöglicht.

    KOMPRESSION

    Fan et al. stellen eine neue Technik zum Komprimieren von 3D-Gauß-Darstellungen vor, die beim Rendern verwendet werden. Ihre Methode identifiziert und entfernt redundante Gauß-Funktionen basierend auf ihrer Bedeutung, ähnlich wie beim Netzwerk-Pruning, und sorgt so für minimale Auswirkungen auf die visuelle Qualität. Durch die Nutzung von Wissensextraktion und Pseudo-View-Verbesserung liefert LightGaussian Informationen in eine Darstellung mit geringerer Komplexität und weniger sphärischen Harmonischen, wodurch die Redundanz weiter reduziert wird. Darüber hinaus optimiert ein Hybridschema namens VecTree-Quantisierung die Darstellung durch Quantisierung von Attributwerten und erreicht so kleinere Größen ohne nennenswerten Genauigkeitsverlust. Im Vergleich zu Standardmethoden erreicht LightGaussian eine durchschnittliche Komprimierungsrate von mehr als dem 15-fachen und erhöht die Rendering-Geschwindigkeit deutlich von 139 FPS auf 215 FPS bei Datensätzen wie Mip NeRF 360 und Tanks&Temples. Die wichtigsten Schritte sind die Berechnung der globalen Ausprägung, das Bereinigen von Gaußschen Gleichungen, das Extrahieren von Wissen mit Pseudoansichten und die Quantifizierung von Attributen mithilfe von VecTree. Insgesamt bietet LightGaussian eine bahnbrechende Lösung für die Konvertierung großer punktbasierter Darstellungen in ein kompaktes Format, wodurch die Datenredundanz erheblich reduziert und die Rendering-Effizienz erheblich verbessert wird.

    Anwendungen und Fallstudien

    Dieser Abschnitt befasst sich mit den bedeutenden Fortschritten bei Anwendungen des Gaußschen Splash-Algorithmus seit seiner Einführung im Juli 2023. Diese Fortschritte finden spezifische Anwendungen in verschiedenen Bereichen wie Avataren, SLAM, Netzextraktion und Physiksimulationen. Bei der Anwendung auf diese speziellen Anwendungsfälle demonstriert Gaussian Splatting seine Vielseitigkeit und Wirksamkeit in verschiedenen Anwendungsszenarien.

    AVATAR

    Mit der zunehmenden Begeisterung für AR/VR-Anwendungen konzentriert sich ein Großteil der Forschung von Gauss Splash auf die Entwicklung der digitalen Version des Menschen. Ein Motiv aus weniger Blickwinkeln zu erfassen und ein 3D-Modell zu erstellen, ist eine herausfordernde Aufgabe, und Gaussian Splash hilft Forschern und der Industrie, dieses Ziel zu erreichen.

    Gelenkwinkel oder Artikulation

    Diese Gaußsche Streutechnik konzentriert sich auf die Modellierung des menschlichen Körpers basierend auf Gelenkwinkeln. Einige Parameter dieses Modelltyps spiegeln die Positionen, Winkel und andere ähnliche Parameter dreidimensionaler Gelenke wider. Dekodieren Sie den Eingaberahmen, um die 3D-Gelenkpositionen und -winkel des aktuellen Rahmens herauszufinden.

    Zielonka et al. schlugen ein Modell zur Darstellung des menschlichen Körpers vor, das Gaußsche Streuung nutzte, und implementierten Echtzeit-Rendering mithilfe der innovativen 3D-GS-Technologie. Im Gegensatz zu bestehenden fotorealistischen fahrbaren Avataren ist Drivable 3D Gaussian Splash (D3GA) nicht auf eine präzise 3D-Registrierung während des Trainings oder dichte Eingabebilder während des Tests angewiesen. Stattdessen nutzt es dicht kalibriertes Multi-View-Video für Echtzeit-Rendering und führt tetraedrische käfigbasierte Verformungen ein, die durch Schlüsselpunkte und Winkel in Gelenken gesteuert werden, was es für Anwendungen mit Kommunikation effektiv macht, wie in Abbildung 9 dargestellt.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Animierbar

    Diese Methoden trainieren in der Regel Posen-abhängige Gauß-Funktionen, um komplexe dynamische Erscheinungen, einschließlich feinerer Details in der Kleidung, zu erfassen, was zu qualitativ hochwertigen Avataren führt. Einige dieser Methoden unterstützen auch Echtzeit-Rendering-Funktionen.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Jiang et al. schlugen HiFi4G vor, das echte Menschen effektiv wiedergeben kann. HiFi4G kombiniert 3D-Gaußsche Darstellung mit nicht starrem Tracking und nutzt einen Dual-Graph-Mechanismus mit Bewegungsprioritäten und 4D-Gaußsche Optimierung mit einem adaptiven raumzeitlichen Regularisierer. HiFi4G erreicht etwa die 25-fache Komprimierungsrate, benötigt weniger als 2 MB Speicherplatz pro Frame und schneidet hinsichtlich Optimierungsgeschwindigkeit, Rendering-Qualität und Speicheraufwand gut ab, wie in Abbildung 10 dargestellt. Es schlägt eine kompakte 4D-Gaußsche Darstellung vor, die Gaußsches Spritzen und nicht starres Tracking verbindet. Allerdings stellen die Abhängigkeit von der Segmentierung, die Anfälligkeit für eine schlechte Segmentierung, die zu Artefakten führt, und die Notwendigkeit einer Rekonstruktion pro Bild und einer Rasterverfolgung Einschränkungen dar. Zukünftige Forschung könnte sich auf die Beschleunigung des Optimierungsprozesses und die Reduzierung der Abhängigkeit von der GPU-Reihenfolge konzentrieren, um eine breitere Bereitstellung auf Web-Viewern und mobilen Geräten zu ermöglichen.

    Kopfbasiert

    Frühere Kopf-Avatar-Methoden basierten meist auf festen expliziten Grundelementen (Gitter, Punkte) oder impliziten Oberflächen (SDF). Auf Gaußscher Streuung basierende Modelle werden den Weg für den Aufstieg von AR/VR- und filterbasierten Anwendungen ebnen, die es Benutzern ermöglichen, verschiedene Make-up-Looks, Töne, Frisuren usw. auszuprobieren.

    Wang et al. nutzten die kanonische Gaußsche Transformation, um dynamische Szenen darzustellen. Unter Verwendung eines expliziten „dynamischen“ Dreideckers als effizienten Container für die parametrisierte Kopfgeometrie, der gut auf die zugrunde liegende Geometrie und die Faktoren im Dreidecker abgestimmt ist, erhielten die Autoren ausgerichtete Regularisierungsfaktoren für reguläre Gaußsche Gleichungen. Mithilfe eines winzigen MLP werden die Faktoren in Opazität und sphärische harmonische Koeffizienten von 3D-Gaußschen Grundelementen dekodiert. Quin et al. erstellten ultrarealistische Kopf-Avatare mit kontrollierbarer Perspektive, Pose und Ausdruck. Während des Avatar-Rekonstruktionsprozesses optimierte der Autor gleichzeitig die Parameter des Deformationsmodells und die Gaußschen Splat-Parameter. Die Arbeit demonstriert die Fähigkeit des Avatars, in einer Vielzahl anspruchsvoller Szenarien zu animieren. Dhamo et al. schlugen HeadGaS vor, ein Hybridmodell, das die explizite Darstellung von 3D-GS basierend auf lernbaren latenten Merkmalen erweitert. Diese Merkmale können dann linear mit niedrigdimensionalen Parametern aus dem parametrischen Kopfmodell gemischt werden, um endgültige ausdrucksabhängige Farb- und Deckkraftwerte abzuleiten. Abbildung 11 zeigt einige Beispielbilder.

    SLAM

    SLAM ist eine Technologie, die in selbstfahrenden Autos verwendet wird, um gleichzeitig eine Karte zu erstellen und die Position des Fahrzeugs innerhalb dieser Karte zu bestimmen. Es ermöglicht Fahrzeugen die Navigation und Kartierung unbekannter Umgebungen. Wie der Name schon sagt, basiert Visual SLAM (vSLAM) auf Bildern von Kameras und verschiedenen Bildsensoren. Diese Methode funktioniert mit einer Vielzahl von Kameratypen, darunter einfache Kameras, Facettenaugen- und RGB-D-Kameras, was sie zu einer kostengünstigen Lösung macht. Durch die Kamera kann die Erkennung von Orientierungspunkten mit einer grafikbasierten Optimierung kombiniert werden, um die Flexibilität der SLAM-Implementierung zu erhöhen. Monokulares SLAM ist eine Teilmenge von vSLAM, die eine einzelne Kamera verwendet und sich Herausforderungen bei der Tiefenwahrnehmung stellt, die durch die Integration zusätzlicher Sensoren wie Odometrie und Encoder einer Trägheitsmesseinheit (IMU) gelöst werden können. Zu den Schlüsseltechnologien im Zusammenhang mit vSLAM gehören SFM, visuelle Odometrie und Strahlanpassung. Visuelle SLAM-Algorithmen sind in zwei Hauptkategorien unterteilt: Sparse-Methoden, die Feature-Point-Matching nutzen (z. B. Parallel Tracking and Mapping, ORB-SLAM), und Dense-Methoden, die die Gesamtbildhelligkeit nutzen (z. B. DTAM, LSD-SLAM, DSO). , SVO).

    Netzextraktion mit Physik

    Gaußsche Streuung kann für physikalisch basierte Simulationen und Renderings verwendet werden. Durch Hinzufügen weiterer Parameter zum 3D-Gaußschen Kernel können Geschwindigkeit, Dehnung und andere mechanische Eigenschaften modelliert werden. Deshalb wurden innerhalb weniger Monate verschiedene Methoden entwickelt, darunter die Simulation der Physik mittels Gaußscher Streuung.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Xie et al. führten eine dreidimensionale Gaußsche Kinematikmethode ein, die auf der Kontinuumsmechanik basiert und partielle Differentialgleichungen (PDE) verwendet, um die Entwicklung des Gaußschen Kernels und der damit verbundenen sphärischen Harmonischen voranzutreiben. Diese Innovation ermöglicht die Verwendung einer einheitlichen Simulations-Rendering-Pipeline und vereinfacht die Bewegungserzeugung, da keine expliziten Zielnetze erforderlich sind. Ihr Ansatz demonstriert Vielseitigkeit durch umfassendes Benchmarking und Experimente mit einer Vielzahl von Materialien und demonstriert Echtzeitleistung in Szenarien mit einfacher Dynamik. Die Autoren stellen PhysGaussian vor, ein Framework, das gleichzeitig und nahtlos physikalisch basierte Dynamiken und fotorealistische Renderings generiert. Während die Autoren die Einschränkungen des Frameworks anerkennen, wie das Fehlen einer Schattenentwicklung und die Verwendung von Einzelpunktquadratur für die Volumenintegration, schlagen sie Möglichkeiten für zukünftige Arbeiten vor, einschließlich der Verwendung von Quadratur höherer Ordnung in der Materialpunktmethode (MPM) und deren Erforschung Die Verwendung integrierter neuronaler Netze für eine realistischere Modellierung. Das Framework kann erweitert werden, um eine Vielzahl von Materialien, wie z. B. Flüssigkeiten, zu verarbeiten und erweiterte Benutzersteuerungen unter Verwendung großer Sprachmodelle (LLMs) zu integrieren. Abbildung 13 zeigt den Trainingsprozess des PhysGaussian-Frameworks.

    Bearbeitung

    Gaussian Splash weitet seine Flügel auch auf die 3D-Bearbeitung und Punktmanipulation von Szenen aus. Mit den neuesten Entwicklungen, die besprochen werden, ist sogar eine tippbasierte 3D-Bearbeitung von Szenen möglich. Diese Methoden stellen die Szene nicht nur als 3D-Gaußsche Karte dar, sondern verfügen auch über ein semantisches und kontroverses Verständnis der Szene.

    Chen et al. stellten GaussianEditor vor, einen neuen 3D-Bearbeitungsalgorithmus, der auf Gaussian Splatting basiert und darauf abzielt, die Einschränkungen traditioneller 3D-Bearbeitungsmethoden zu überwinden. Während traditionelle Methoden, die auf Netzen oder Punktwolken basieren, Schwierigkeiten haben, realistische Darstellungen zu erzielen, stehen implizite 3D-Darstellungen wie NeRF vor den Herausforderungen langsamer Verarbeitung und eingeschränkter Kontrolle. GaussianEditor löst diese Probleme durch die Nutzung von 3D-GS, die Verbesserung der Genauigkeit und Kontrolle durch Gaußsches semantisches Tracking und die Einführung von Hierarchical Gaussian Splash (HGS) für stabile und verfeinerte Ergebnisse unter generativer Führung. Der Algorithmus umfasst eine spezielle 3D-Reparaturmethode für die effiziente Entfernung und Integration von Objekten und demonstriert in umfangreichen Experimenten eine überlegene Kontrolle, Wirksamkeit und schnelle Leistung. Abbildung 14 zeigt die verschiedenen von Chen et al. getesteten Textaufforderungen. GaussianEditor stellt einen großen Fortschritt in der 3D-Bearbeitung dar und bietet verbesserte Effektivität, Geschwindigkeit und Kontrolle. Zu den Beiträgen dieser Forschung gehören die Einführung der Gaußschen semantischen Verfolgung für eine detaillierte Bearbeitungssteuerung, der Vorschlag von HGS, eine stabile Konvergenz unter Generationsführung zu erreichen, die Entwicklung eines 3D-Reparaturalgorithmus zum schnellen Löschen und Hinzufügen von Zielen sowie umfangreiche Experimente, die dies belegen Die Methode ist den bisherigen 3D-Bearbeitungsmethoden überlegen. Trotz der Fortschritte von GaussianEditor basiert es für eine effektive Überwachung auf einem 2D-Diffusionsmodell und weist Einschränkungen bei der Handhabung komplexer Hinweise auf, was eine häufige Herausforderung für andere 3D-Bearbeitungsmethoden darstellt, die auf ähnlichen Modellen basieren.

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Diskussion

    Traditionell wurden 3D-Szenen aufgrund ihrer expliziten Natur und Kompatibilität mit schneller GPU/CUDA-basierter Rasterung mithilfe von Netzen und Punkten dargestellt. Jüngste Fortschritte, wie beispielsweise NeRF-Methoden, konzentrieren sich jedoch auf die kontinuierliche Szenendarstellung und nutzen Techniken wie mehrschichtige Perzeptronoptimierung und neuartige Ansichtssynthese über volumetrisches Ray Marching. Während die kontinuierliche Darstellung bei der Optimierung hilft, führt die für das Rendering erforderliche Zufallsstichprobe zu teurem Rauschen. Gaussian Splash schließt diese Lücke, indem es 3D-Gauß-Darstellungen nutzt, die optimiert sind, um modernste visuelle Qualität und wettbewerbsfähige Trainingszeiten zu erreichen. Darüber hinaus sorgt eine kachelbasierte Splash-Lösung für erstklassiges Echtzeit-Rendering. Gaussian Splash liefert einige der besten Ergebnisse in Bezug auf Qualität und Effizienz beim Rendern von 3D-Szenen.

    Gaussian Splash wurde entwickelt, um dynamische und verformbare Ziele durch Modifizierung ihrer ursprünglichen Darstellung zu bewältigen. Dabei werden Parameter wie 3D-Position, Rotation, Skalierungsfaktoren und sphärische harmonische Koeffizienten für Farbe und Opazität einbezogen. Zu den jüngsten Fortschritten in diesem Bereich gehören die Einführung von Sparsity-Verlusten zur Förderung der gemeinsamen Nutzung von Basistrajektorien, die Einführung von Dual-Domain-Deformationsmodellen zur Erfassung zeitabhängiger Residuen und die Gaußsche Shell-Zuordnung, die Generatornetzwerke mit 3D-Gauß-Rendering verbindet. Es werden auch Anstrengungen unternommen, um Herausforderungen wie nicht starres Tracking, Änderungen des Avatar-Ausdrucks und die effiziente Wiedergabe realistischer menschlicher Leistung anzugehen. Zusammen sorgen diese Fortschritte für Echtzeit-Rendering, optimierte Effizienz und hochwertige Ergebnisse bei der Arbeit mit dynamischen und verformbaren Zielen.

    Andererseits arbeiten Diffusion und Gaussian Splash zusammen, um 3D-Ziele aus Textaufforderungen zu erstellen. Ein Diffusionsmodell ist ein neuronales Netzwerk, das lernt, Bilder aus verrauschten Eingaben zu erzeugen, indem es den Prozess der Bildverfälschung durch eine Reihe immer saubererer Bilder umkehrt. In der Text-zu-3D-Pipeline generiert ein Diffusionsmodell eine anfängliche 3D-Punktwolke basierend auf der Textbeschreibung, die dann mithilfe der Gaußschen Streuung in eine Gaußsche Kugel umgewandelt wird. Die gerenderte Gaußsche Kugel erzeugt das endgültige 3D-Zielbild. Zu den Fortschritten in diesem Bereich gehören die Verwendung von strukturiertem Rauschen zur Bewältigung von Herausforderungen der Multiview-Geometrie, die Einführung von Variations-Gaußschen Streumodellen zur Lösung von Konvergenzproblemen und die Optimierung von Entrauschungswerten zur Verbesserung der Diffusionspriors mit dem Ziel, einen beispiellosen Realismus bei der textbasierten 3D-Generierung zu erreichen .

    Gaussian Splash wird häufig bei der Erstellung digitaler Avatare für AR/VR-Anwendungen verwendet. Dabei geht es darum, ein Objekt aus einer minimalen Anzahl von Blickwinkeln zu erfassen und ein 3D-Modell zu erstellen. Mithilfe der Technologie wurden menschliche Gelenke, Gelenkwinkel und andere Parameter modelliert und so ausdrucksstarke und kontrollierbare Avatare generiert. Zu den Fortschritten in diesem Bereich gehört die Entwicklung von Methoden zur Erfassung hochfrequenter Gesichtsdetails, zur Erhaltung übertriebener Gesichtsausdrücke und zur effektiven Morphung von Avataren. Darüber hinaus werden Hybridmodelle vorgeschlagen, die explizite Darstellungen mit lernbaren latenten Merkmalen kombinieren, um ausdrucksabhängige endgültige Farb- und Deckkraftwerte zu erzielen. Diese Fortschritte sollen die Geometrie und Textur der generierten 3D-Modelle verbessern, um der wachsenden Nachfrage nach realistischen und steuerbaren Avataren in AR/VR-Anwendungen gerecht zu werden.

    Gaussian Splatting findet auch in SLAM vielseitige Anwendungen und bietet Echtzeit-Tracking- und Mapping-Funktionen auf der GPU. Durch die Verwendung einer 3D-Gaußschen Darstellung und einer differenzierbaren Splash-Rasterisierungspipeline wird eine schnelle und fotorealistische Darstellung realer und synthetischer Szenen ermöglicht. Die Technik erstreckt sich auf die Netzextraktion und physikbasierte Simulation und ermöglicht die Modellierung mechanischer Eigenschaften ohne explizites Zielnetz. Fortschritte in der Kontinuumsmechanik und den partiellen Differentialgleichungen haben die Entwicklung von Gaußschen Kerneln ermöglicht und die Bewegungserzeugung vereinfacht. Insbesondere umfasst die Optimierung effiziente Datenstrukturen wie OpenVDB, Regularisierungsterme für die Ausrichtung und physikalisch inspirierte Terme für die Fehlerreduzierung, wodurch die Gesamteffizienz und -genauigkeit verbessert wird. Weitere Arbeiten wurden zur Komprimierung und zur Verbesserung der Rendereffizienz der Gaußschen Streuung durchgeführt.

    Vergleich

    Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken

    Aus Tabelle 2 geht hervor, dass Gaussian Splash zum Zeitpunkt des Schreibens die Option ist, die dem Echtzeit-Rendering und der dynamischen Szenendarstellung am nächsten kommt. Die Belegung des Netzwerks ist einfach nicht auf NVS-Anwendungsfälle zugeschnitten. Die Photogrammetrie ist ideal für die Erstellung hochpräziser und realistischer Modelle mit einem ausgeprägten Kontextgefühl. NeRF zeichnet sich dadurch aus, dass es neuartige Ansichten und realistische Lichteffekte erzeugt, kreative Freiheit bietet und komplexe Szenen handhabt. Gaussian Splash glänzt durch seine Echtzeit-Rendering-Fähigkeiten und die interaktive Erkundung, wodurch es sich für dynamische Anwendungen eignet. Jede Methode hat ihre eigene Nische und ergänzt sich gegenseitig und bietet eine große Vielfalt an Werkzeugen für die 3D-Rekonstruktion und Visualisierung.

    Herausforderungen und Einschränkungen

    Obwohl Gaußian Splash eine sehr robuste Technik ist, weist sie einige Einschränkungen auf. Einige davon sind unten aufgeführt:

    • 1) Rechenkomplexität: Die Gaußsche Streuung erfordert die Auswertung einer Gaußschen Funktion für jedes Pixel, was rechenintensiv sein kann, insbesondere wenn es um eine große Anzahl von Punkten oder Partikeln geht.
    • 2) Speicherverbrauch: Das Speichern von Zwischenergebnissen des Gaußschen Spritzens, z. B. des gewichteten Beitrags jedes Punktes zu benachbarten Pixeln, kann viel Speicher verbrauchen.
    • 3) Kantenartefakte: Gaußsche Streuung kann unerwünschte Artefakte wie Ringen oder Unschärfe in der Nähe der Kanten oder kontrastreichen Bildbereichen erzeugen.
    • 4) Kompromiss zwischen Leistung und Genauigkeit: Um qualitativ hochwertige Ergebnisse zu erzielen, ist möglicherweise die Verwendung großer Kernelgrößen oder die Auswertung mehrerer Gaußscher Funktionen pro Pixel erforderlich, was sich auf die Leistung auswirkt.
    • 5) Integration mit anderen Rendering-Techniken: Die Integration der Gaußschen Streuung mit anderen Techniken wie Shadow Mapping oder Ambient Occlusion unter Beibehaltung der Leistung und visuellen Kohärenz kann komplex sein.

    Zukünftige Richtungen

    Echtzeit-3D-Rekonstruktionstechnologie wird eine Vielzahl von Funktionen in der Computergrafik und verwandten Bereichen realisieren, wie z. B. die interaktive Erkundung von 3D-Szenen oder -Modellen in Echtzeit und die Manipulation von Standpunkten und Zielen durch sofortiges Feedback . Es kann auch dynamische Szenen mit sich bewegenden Zielen oder sich ändernden Umgebungen in Echtzeit rendern und so den Realismus und das Eintauchen verbessern. Echtzeit-3D-Rekonstruktion kann in Simulations- und Trainingsumgebungen verwendet werden, um realistisches visuelles Feedback für virtuelle Szenen in Bereichen wie Automobil, Luft- und Raumfahrt und Medizin zu liefern. Es wird auch die Echtzeitwiedergabe immersiver AR- und VR-Erlebnisse unterstützen, bei denen Benutzer in Echtzeit mit virtuellen Zielen oder Umgebungen interagieren können. Insgesamt verbessert Echtzeit-Gaußian Splash die Effizienz, Interaktivität und den Realismus für eine Vielzahl von Anwendungen in den Bereichen Computergrafik, Visualisierung, Simulation und immersive Technologien.

    Fazit

    In diesem Artikel haben wir verschiedene Funktions- und Anwendungsaspekte im Zusammenhang mit der Gaußschen Streuung für die 3D-Rekonstruktion und die Synthese neuer Ansichten besprochen. Es umfasst dynamische und verformbare Modellierung, Bewegungsverfolgung, nicht starre/verformbare Ziele, Ausdrucks-/Emotionsänderungen, textbasierte generative Diffusion, Rauschunterdrückung, Optimierung, Avatare, animierbare Ziele, kopfbasierte Modellierung, simultane Lokalisierung und Themen wie Planung, Netzextraktion und -physik, Optimierungstechniken, Bearbeitungsmöglichkeiten, Rendering-Methoden, Komprimierung und mehr.

    In diesem Artikel geht es insbesondere um die Herausforderungen und Fortschritte bei der bildbasierten 3D-Rekonstruktion, die Rolle lernbasierter Methoden bei der Verbesserung der 3D-Formschätzung und die Anwendung der Gaußschen Spritztechnologie bei der Handhabung dynamischer Szenen, interaktiver Zielmanipulation und 3D-Segmentierung und mögliche Anwendungen und zukünftige Richtungen in der Szenenbearbeitung.

    Gaussian Splash ist in verschiedenen Bereichen transformativ, darunter computergenerierte Bilder, VR/AR, Robotik, Film und Animation, Automobildesign, Einzelhandel, Umweltforschung und Luft- und Raumfahrtanwendungen. Es ist jedoch zu beachten, dass die Gaußsche Streuung im Vergleich zu anderen Methoden wie NeRFs möglicherweise Einschränkungen beim Erreichen eines Realismus aufweist. Darüber hinaus sollten auch Herausforderungen im Zusammenhang mit Überanpassung, Rechenressourcen und Einschränkungen der Rendering-Qualität berücksichtigt werden. Trotz dieser Einschränkungen gehen laufende Forschungen und Fortschritte in der Gaußschen Streuung weiterhin auf diese Herausforderungen ein und verbessern die Wirksamkeit und Anwendbarkeit der Methode weiter.

Das obige ist der detaillierte Inhalt vonMehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn