Die AIxiv-Kolumne dieser Website ist eine Kolumne, die akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.
Im Forschungsfeld der generativen 3D-Modellierung basieren die aktuellen beiden Hauptkategorien von 3D-Darstellungsmethoden entweder auf impliziten Decodern mit unzureichenden Anpassungsfähigkeiten oder es fehlen klar definierte räumliche Strukturen und sie sind schwer in das Mainstream-3D zu integrieren Diffusionstechnologien. Forscher der University of Science and Technology of China, der Tsinghua University und Microsoft Research Asia schlugen GaussianCube vor, eine explizit strukturierte 3D-Darstellung mit leistungsstarken Anpassungsfunktionen, die nahtlos auf aktuelle gängige 3D-Diffusionsmodelle angewendet werden kann. GaussianCube beginnt mit einem neuartigen dichtebeschränkten Gaußschen Anpassungsalgorithmus, der eine hochpräzise Anpassung von 3D-Assets ermöglicht und gleichzeitig die Verwendung einer festen Anzahl freier Gaußscher Funktionen gewährleistet. Diese Gaußschen Werte werden dann mithilfe eines optimalen Transportalgorithmus in ein vordefiniertes Voxelgitter neu angeordnet. Dank der strukturellen Eigenschaften von GaussianCube können Forscher das standardmäßige 3D-U-Net direkt als Backbone-Netzwerk für die Diffusionsmodellierung verwenden, ohne dass ein komplexes Netzwerkdesign erforderlich ist. Noch wichtiger ist, dass der in diesem Artikel vorgeschlagene neue Anpassungsalgorithmus die Kompaktheit der Darstellung erheblich verbessert. Wenn die Anpassungsqualität der 3D-Darstellung ähnlich ist, beträgt die Anzahl der erforderlichen Parameter nur ein Zehntel oder ein Hundertstel des Parameterbetrags. Diese Kompaktheit reduziert die Komplexität der generativen 3D-Modellierung erheblich. Forscher haben umfangreiche Experimente zur bedingungslosen und bedingten Generierung von 3D-Objekten, zur Erstellung digitaler Avatare und zur Text-zu-3D-Inhaltssynthese durchgeführt. Numerische Ergebnisse zeigen, dass GaussianCube eine Leistungsverbesserung von bis zu 74 % im Vergleich zum vorherigen Basisalgorithmus erreicht. Wie unten gezeigt, ist GaussianCube nicht nur in der Lage, hochwertige 3D-Assets zu generieren, sondern bietet auch äußerst attraktive visuelle Effekte, was sein großes Potenzial als universelle Darstellung für die 3D-Generierung voll unter Beweis stellt. Abbildung 1. Unbedingt generierte Ergebnisse. Mit der Methode in diesem Artikel können hochwertige und vielfältige 3D-Modelle generiert werden.入 Abbildung 2. Das Ergebnis der digitalen Inkarnationserstellung basierend auf dem Eingabeporträt. Die Methode in diesem Artikel kann die Identitätsmerkmalsinformationen des Eingabeporträts weitgehend beibehalten und eine detaillierte Frisuren- und Kleidungsmodellierung ermöglichen.入 Abbildung 3. Die Ergebnisse der Erstellung von 3D-Assets basierend auf dem Eingabetext. Die Methode in diesem Artikel kann Ergebnisse ausgeben, die mit Textinformationen übereinstimmen, und komplexe geometrische Strukturen und detaillierte Materialien modellieren. Abbildung 4. Durch Kategoriebedingungen generierte Ergebnisse. Die in diesem Artikel generierten 3D-Assets verfügen über eine klare Semantik und hochwertige geometrische Strukturen und Materialien.
- Papiername: GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
- Projekthomepage: https://gaussiancube.github.io/
-
Link zum Papier: https://arxiv.org/ pdf/2403.19655
In welchem Alter verwenden Sie noch traditionelles NeRF für die generative 3D-Modellierung?
Die meisten bisherigen generativen 3D-Modellierungsarbeiten verwendeten eine Variante des Neural Radiance Field (NeRF) als zugrunde liegende 3D-Darstellung, die normalerweise eine explizite strukturierte Merkmalsdarstellung und einen impliziten Merkmalsdecoder kombiniert. Bei der generativen 3D-Modellierung müssen jedoch alle 3D-Objekte denselben impliziten Feature-Decoder verwenden, was die Anpassungsfähigkeit von NeRF erheblich schwächt. Darüber hinaus weist die Volumen-Rendering-Technologie, auf die NeRF setzt, eine sehr hohe Rechenkomplexität auf, was zu einer langsamen Rendering-Geschwindigkeit und einem extrem hohen GPU-Speicherverbrauch führt. In jüngster Zeit hat eine weitere dreidimensionale Darstellungsmethode, 3D Gaussian Splatting (3DGS), große Aufmerksamkeit erregt. Obwohl 3DGS über leistungsstarke Anpassungsfunktionen, effiziente Rechenleistung und vollständig explizite Funktionen verfügt, wird es häufig bei dreidimensionalen Rekonstruktionsaufgaben eingesetzt. Allerdings fehlt 3DGS eine klar definierte räumliche Struktur, weshalb es nicht direkt in aktuellen Mainstream-Frameworks für die generative Modellierung angewendet werden kann.
Daher schlug das Forschungsteam GaussianCube vor. Hierbei handelt es sich um eine innovative dreidimensionale Darstellungsmethode, die sowohl strukturiert als auch vollständig explizit ist und leistungsstarke Anpassungsmöglichkeiten bietet. Die in diesem Artikel vorgestellte Methode stellt zunächst eine hochgenaue Anpassung mit einer festen Anzahl freier Gauß-Funktionen sicher und organisiert diese Gauß-Funktionen dann effizient in einem strukturierten Voxelgitter. Diese explizite und strukturierte Darstellung ermöglicht es Forschern, standardmäßige 3D-Netzwerkarchitekturen wie U-Net nahtlos zu übernehmen, ohne dass komplexe und angepasste Netzwerke erforderlich sind, die bei der Verwendung unstrukturierter oder implizit dekodierter Darstellungen erforderlich sind. Gleichzeitig behält die strukturierte Organisation durch den optimalen Übertragungsalgorithmus die räumliche Strukturbeziehung zwischen benachbarten Gaußschen Kerneln weitestgehend bei, sodass Forscher nur mit klassischen 3D-Faltungsnetzwerken Merkmale effizient extrahieren können. Noch wichtiger ist, dass angesichts der Ergebnisse früherer Studien, dass Diffusionsmodelle beim Umgang mit hochdimensionalen Datenverteilungen eine schlechte Leistung erbringen, der in diesem Artikel vorgeschlagene GaussianCube die Anzahl der erforderlichen Parameter erheblich reduziert und gleichzeitig eine qualitativ hochwertige Rekonstruktion aufrechterhält, was das Problem erheblich erleichtert. Es beseitigt den Druck von Diffusionsmodellen auf die Verteilungsmodellierung und bringt erhebliche Modellierungsfunktionen und Effizienzverbesserungen in den Bereich der generativen 3D-Modellierung. Das Papier besteht aus zwei Hauptphasen: der Darstellungskonstruktion und der dreidimensionalen Verbreitung. In der Darstellungskonstruktionsphase wird bei einem Multi-View-Rendering eines 3D-Assets eine dichtebeschränkte Gauß-Anpassung durchgeführt, um einen 3D-Gauß-Wert mit einer festen Zahl zu erhalten. Anschließend wird der dreidimensionale Gaussian durch optimierte Übertragung in einen GaussianCube strukturiert. In der 3D-Diffusionsphase trainierten die Forscher das 3D-Diffusionsmodell, um GaussianCubes aus Gaußschem Rauschen zu erzeugen. um Darstellungen für jedes 3D-Asset zu erstellen, die für die generative Modellierung geeignet sind. In Anbetracht der Tatsache, dass das generative Feld häufig eine einheitliche feste Länge der modellierten Daten erfordert, führt die adaptive Dichtesteuerung im ursprünglichen 3DGS-Anpassungsalgorithmus dazu, dass unterschiedliche Anzahlen von Gaußschen Kerneln zum Anpassen verschiedener Objekte verwendet werden, was zu Problemen bei der generativen Modellierung führt. Eine sehr einfache Lösung wäre, einfach die adaptive Dichtekontrolle zu entfernen, aber die Forscher stellten fest, dass dies die Genauigkeit der Anpassung erheblich beeinträchtigte. In diesem Artikel wird ein neuartiger Dichtebeschränkungsanpassungsalgorithmus vorgeschlagen, der die Beschneidungsoperation in der ursprünglichen adaptiven Dichtesteuerung beibehält, aber eine neue Einschränkungsverarbeitung für die Aufteilungs- und Klonoperationen durchführt.
Unter der Annahme, dass die aktuelle Iteration Gaußsche Operatoren enthält, identifizieren die Forscher Kandidaten für Teilungs- oder Klonierungsoperationen, indem sie diejenigen Gaußschen Operatoren auswählen, deren Gradientengröße an der Position im Blickpunktraum einen vordefinierten Schwellenwert τ überschreitet, und die Anzahl dieser Kandidaten wird als markiert
. Um ein Überschreiten des vordefinierten maximalen -Gauß-Operators zu verhindern, werden
-Gauß-Operator mit dem größten räumlichen Positionsgradienten des Blickwinkels aus den Kandidaten für die Aufteilung oder das Klonen ausgewählt. Nach Abschluss des Anpassungsprozesses füllten die Forscher ihn mit einem Gaußschen Wert von α=0, um die Zielanzahl
zu erreichen, ohne die Rendering-Ergebnisse zu beeinträchtigen. Dank dieser Strategie kann eine qualitativ hochwertige Darstellung mit mehreren Größenordnungen weniger Parametern im Vergleich zu bestehenden Arbeiten ähnlicher Qualität erreicht werden, wodurch die Modellierungsschwierigkeiten von Diffusionsmodellen erheblich reduziert werden. Daten. Zu diesem Zweck schlugen Forscher vor, Gaußsche Gleichungen in ein vordefiniertes strukturiertes Voxelgitter abzubilden, um den Gaußschen Gleichungen eine klare räumliche Struktur zu verleihen. Intuitiv besteht das Ziel dieses Schritts darin, jede Gaußsche Funktion in ein Voxel zu „verschieben“ und gleichzeitig die räumliche Nachbarschaft der Gaußschen Funktion so weit wie möglich beizubehalten.
Die Forscher modellierten es als optimales Übertragungsproblem, verwendeten den Jonker-Volgenant-Algorithmus, um die entsprechende Zuordnungsbeziehung zu erhalten, und organisierten dann die Gaußschen Operatoren gemäß der optimalen Übertragungslösung in entsprechende Voxel, um GaussianCube zu erhalten, und ersetzten die Position des ursprünglichen Gaußschen mit dem Versatz des aktuellen Voxelzentrums, um den Lösungsraum des Diffusionsmodells zu reduzieren. Die endgültige GaussianCube-Darstellung ist nicht nur strukturiert, sondern behält auch die strukturelle Beziehung zwischen benachbarten Gaußschen Operatoren weitestgehend bei, was eine starke Unterstützung für eine effiziente Merkmalsextraktion für die generative 3D-Modellierung bietet.
In der dreidimensionalen Diffusionsphase verwendet dieser Artikel ein dreidimensionales Diffusionsmodell, um die Verteilung von GaussianCube zu modellieren. Dank der räumlich strukturierten Organisation von GaussianCube reicht die standardmäßige 3D-Faltung aus, um Merkmale benachbarter Gauß-Funktionen effektiv zu extrahieren und zu aggregieren, ohne dass komplexe Netzwerk- oder Trainingsdesigns erforderlich sind. Daher nutzten die Forscher die standardmäßige U-Net-Netzwerkverbreitung und ersetzten die ursprünglichen 2D-Operatoren (einschließlich Faltung, Aufmerksamkeit, Upsampling und Downsampling) direkt durch ihre 3D-Implementierungen.
Das dreidimensionale Diffusionsmodell dieses Artikels unterstützt auch eine Vielzahl von Bedingungssignalen zur Steuerung des Generierungsprozesses, einschließlich der Generierung von Kategoriebeschriftungsbedingungen, der Erstellung digitaler Avatare basierend auf Bildbedingungen und der Generierung dreidimensionaler digitaler Assets basierend auf Bildbedingungen Text. Die auf multimodalen Bedingungen basierende Generierungsfähigkeit erweitert den Anwendungsbereich des Modells erheblich und bietet ein leistungsstarkes Werkzeug für die zukünftige Erstellung von 3D-Inhalten. Experimentelle Ergebnisse
Die Forscher überprüften zunächst die Anpassungsfähigkeit von GaussianCube anhand des ShapeNet-Autodatensatzes. Experimentelle Ergebnisse zeigen, dass GaussianCube im Vergleich zu Basismethoden eine hochpräzise dreidimensionale Objektanpassung mit der schnellsten Geschwindigkeit und der geringsten Anzahl von Parametern erreichen kann. Tabelle 1. Numerischer Vergleich verschiedener dreidimensionaler Darstellungen auf ShapeNet Car hinsichtlich räumlicher Struktur, Anpassungsqualität, relativer Anpassungsgeschwindigkeit und Menge der verwendeten Parameter. ∗
zeigt an, dass verschiedene Objekte implizite Feature-Decoder gemeinsam nutzen. Alle Methoden werden mit 30.000 Iterationen ausgewertet. Abbildung 8. Visueller Vergleich der Anpassungsmöglichkeiten verschiedener 3D-Darstellungen auf ShapeNet Car. ∗ zeigt an, dass verschiedene Objekte implizite Feature-Decoder gemeinsam nutzen. Alle Methoden werden mit 30.000 Iterationen ausgewertet.
Die Forscher überprüften dann die Generierungsfähigkeit des GaussianCube-basierten Diffusionsmodells anhand einer großen Anzahl von Datensätzen, darunter ShapeNet, OmniObject3D, synthetische digitale Avatar-Datensätze und Objaverse-Datensätze. Experimentelle Ergebnisse zeigen, dass unser Modell führende Ergebnisse bei der bedingungslosen und kategoriebedingten Objektgenerierung, der Erstellung digitaler Avatare und der Text-zu-3D-Synthese erzielt, die von numerischen Metriken bis hin zur visuellen Qualität reicht. Insbesondere erreicht GaussianCube eine Leistungssteigerung von bis zu 74 % im Vergleich zum vorherigen Basisalgorithmus.
Tabelle 2. Quantitativer Vergleich der bedingungslosen Generierung auf ShapeNet Car, Chair und der kategoriebedingten Generierung auf OmniObject3D. Abbildung 9. Qualitativer Vergleich der bedingungslosen Generierung auf Netzwagen, Stuhl. Mit der Methode in diesem Artikel können genaue Geometrie und detaillierte Materialien generiert werden. Abbildung 10. Qualitativer Vergleich der Kategoriebedingungsgenerierung auf OmniObject3D. Mit dieser Methode können komplexe Objekte mit klarer Semantik generiert werden. Tabelle 3. Quantitativer Vergleich der Erstellung digitaler Avatare basierend auf Eingabeporträts. Abbildung 11. Qualitativer Vergleich der Erstellung digitaler Avatare basierend auf dem Eingabeporträt. Mit der Methode in diesem Artikel können die Identitätsmerkmale, Ausdrücke, Accessoires und Haardetails des Eingabeporträts genauer wiederhergestellt werden.
Tabelle 4. Quantitativer Vergleich der Erstellung von 3D-Assets basierend auf Eingabetext. Die Inferenzzeit wurde mit einem einzelnen A100 getestet. Shap-E und LGM erzielten ähnliche CLIP-Scores wie die Methode in diesem Artikel, verwendeten jedoch jeweils Millionen von Trainingsdaten (in diesem Artikel wurden nur 100.000 dreidimensionale Daten für das Training verwendet) und zuvor ein zweidimensionales Vincentian-Graph-Diffusionsmodell. Abbildung 12. Qualitativer Vergleich der Erstellung von 3D-Assets basierend auf Eingabetext. Mit der Methode in diesem Artikel kann eine qualitativ hochwertige 3D-Asset-Generierung basierend auf dem Eingabetext erreicht werden. Das obige ist der detaillierte Inhalt vonDie vielversprechendste Folge für hochwertige 3D-Generierung? GaussianCube übertrifft NeRF in der 3D-Generierung um Längen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn