Heim >Technologie-Peripheriegeräte >KI >Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

PHPznach vorne: 2023-04-29 20:10:081772Durchsuche

Project Homepage: https://scene-dreamer.github.io/
code: https://github.com/frozenburning/scenedreamer
paper: https ://arxiv.org/abs/2302.01330
Online-Demo: https://huggingface.co/spaces/FrozenBurning/SceneDreamer

Um die wachsende Nachfrage nach 3D-Kreativwerkzeugen im Metaversum zu befriedigen Nachfrage, 3D-Szenengenerierung hat in letzter Zeit große Aufmerksamkeit erhalten. Im Mittelpunkt der Erstellung von 3D-Inhalten stehen inverse Grafiken, die darauf abzielen, 3D-Darstellungen aus 2D-Beobachtungen wiederherzustellen. Angesichts der Kosten und des Arbeitsaufwands, die für die Erstellung von 3D-Assets erforderlich sind, wird das ultimative Ziel der 3D-Inhaltserstellung darin bestehen, generative 3D-Modelle aus der riesigen Menge an 2D-Bildern im Internet zu lernen. Neuere Arbeiten zu generativen Modellen der 3D-Wahrnehmung haben sich in gewissem Maße mit diesem Problem befasst, wobei die meisten Arbeiten 2D-Bilddaten nutzen, um objektzentrierte Inhalte (z. B. Gesichter, menschliche Körper oder Objekte) zu generieren. Der Beobachtungsraum dieser Art von Generierungsaufgabe liegt jedoch in einem endlichen Bereich und die generierten Ziele nehmen einen begrenzten Bereich des dreidimensionalen Raums ein. Dies wirft die Frage auf: Können wir aus riesigen 2D-Bildern im Internet generative 3D-Modelle unbegrenzter Szenen lernen? Zum Beispiel eine lebendige Naturlandschaft, die jede große Fläche bedecken und sich ins Unendliche ausdehnen kann (wie unten gezeigt).

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

In diesem Artikel schlugen Forscher des Nanyang Technological University S-Lab ein neues Framework SceneDreamer vor, das sich auf das Erlernen unbegrenzter dreidimensionaler Szenengenerierungsmodelle aus massiven unbeschrifteten natürlichen Bildern konzentriert. Durch das Abtasten von Szenenrauschen und Stilrauschen kann SceneDreamer verschiedene Stile natürlicher Szenen rendern und dabei eine extrem hohe dreidimensionale Konsistenz beibehalten, sodass sich die Kamera frei in der Szene bewegen kann.

Um ein solches Ziel zu erreichen, stehen wir vor den folgenden drei Herausforderungen:

1) Unbegrenzten Szenen fehlt eine effiziente dreidimensionale Darstellung: Unbegrenzte Szenen nehmen oft einen beliebig großen euklidischen Raum ein, was die hohe Effizienz und Bedeutung unterstreicht ausdrucksstarker zugrunde liegender dreidimensionaler Darstellungen.

2) Mangelnde Inhaltsausrichtung: Bestehende 3D-Generierungsarbeiten verwenden Datensätze mit ausgerichteten Eigenschaften (wie Gesichter, menschliche Körper, gemeinsame Objekte usw.). Die Zielobjekte in diesen begrenzten Szenen haben normalerweise eine ähnliche Semantik und eine ähnliche Skalierungsposition und Orientierung. In riesigen, unbeschrifteten 2D-Bildern haben verschiedene Objekte oder Szenen jedoch häufig eine sehr unterschiedliche Semantik und unterschiedliche Maßstäbe, Positionen und Ausrichtungen. Diese mangelnde Ausrichtung kann zu Instabilität beim generativen Modelltraining führen.

3) Fehlende Kamera-Posen-Prioris: Generative 3D-Modelle basieren auf Priors präziser Kamera-Posen oder Kamera-Posen-Verteilungen, um den inversen Rendering-Prozess von Bildern zu 3D-Darstellungen zu implementieren. Allerdings stammen natürliche Bilder im Internet aus unterschiedlichen Szenen und Bildquellen, sodass wir keine genauen Informationen oder Vorabinformationen über die Kameraposition erhalten können.

Zu diesem Zweck schlagen wir ein prinzipielles kontradiktorisches Lernframework SceneDreamer vor, das lernt, unbegrenzte dreidimensionale Szenen aus massiven unbeschrifteten natürlichen Bildern zu generieren. Das Framework besteht aus drei Hauptmodulen: 1) einer effizienten und ausdrucksstarken 3D-Szenendarstellung aus der Vogelperspektive; 2) einem generativen neuronalen Hash-Gitter, das eine universelle Darstellung der Szene erlernt; und Das Training wird direkt aus zweidimensionalen Bildern durch kontradiktorisches Lernen durchgeführt.

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Das obige Bild zeigt die Hauptstruktur von SceneDreamer. Während des Inferenzprozesses können wir als Eingabe zufällig ein Simplex-Rauschen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren abtasten, das die Szenenstruktur darstellt, und ein Gaußsches Rauschen , das den Szenenstil darstellt Unser Modell ist in der Lage, großformatige 3D-Szenen zu rendern und gleichzeitig freie Kamerabewegungen zu unterstützen. Zuerst erhalten wir die BEV-Szenendarstellung bestehend aus einer Höhenkarte und einer semantischen Karte aus dem Szenenrauschen Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren . Anschließend wird die BEV-Darstellung verwendet, um explizit ein lokales 3D-Szenenfenster zu erstellen, um eine Kameraabtastung durchzuführen, während die BEV-Darstellung in Szenenmerkmale codiert wird Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren . Wir verwenden die Koordinaten von Abtastpunkten und Szenenmerkmalen , um den hochdimensionalen Raum abzufragen, der durch ein generatives neuronales Hashing-Gitter codiert wird, To Erhalten Sie die latenten Variablen räumlicher Unterschiede und Szenenunterschiede Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren . Schließlich integrieren wir die latenten Variablen im Kameralicht durch einen durch stilistisches Rauschen modulierten Volumenrenderer und erhalten schließlich das gerenderte 2D-Bild.

Um die grenzenlose 3D-Szenengenerierung zu erlernen, hoffen wir, dass die Szene effizient und mit hoher Qualität ausgedrückt werden sollte. Wir schlagen vor, eine großräumige dreidimensionale Szene mithilfe einer BEV-Darstellung auszudrücken, die aus semantischen Karten und Höhenkarten besteht. Insbesondere erhalten wir die Höhenkarte und die semantische Karte aus der Vogelperspektive aus dem Szenenrauschen durch eine nichtparametrische Kartenkonstruktionsmethode. Die Höhenkarte zeichnet die Höheninformationen der Szenenoberflächenpunkte auf, während die semantische Karte die semantischen Beschriftungen der entsprechenden Punkte aufzeichnet. Die von uns verwendete BEV-Darstellung, die aus einer semantischen Karte und einer Höhenkarte besteht, kann: 1) eine dreidimensionale Szene mit einer Komplexität von n ^ 2 darstellen, 2) die dem dreidimensionalen Punkt entsprechende Semantik erhalten und dadurch lösen das Problem der inhaltlichen Ausrichtung. 3) Unterstützt die Verwendung von Schiebefenstern zur Synthese unendlicher Szenen und vermeidet so das Generalisierungsproblem, das durch die feste Szenenauflösung während des Trainings verursacht wird.

Um eine dreidimensionale Darstellung zu kodieren, die zwischen Szenen verallgemeinert werden kann, müssen wir die räumliche dreidimensionale Szenendarstellung in den latenten Raum kodieren, um das Training zu erleichtern des kontradiktorischen Lernens. Es ist erwähnenswert, dass bei einer großen, unbegrenzten Szene normalerweise nur die sichtbaren Oberflächenpunkte für das Rendern von Bedeutung sind, was bedeutet, dass ihre parametrische Form kompakt und spärlich sein sollte. Bestehende Methoden wie die Dreiebenen- oder dreidimensionale Faltung modellieren den Raum als Ganzes, aber eine große Menge an Modellkapazität wird für die Modellierung unsichtbarer Oberflächenpunkte verschwendet. Inspiriert durch den Erfolg neuronaler Hash-Gitter bei 3D-Rekonstruktionsaufgaben verallgemeinern wir ihre räumlich kompakten und effizienten Eigenschaften auf generative Aufgaben und schlagen die Verwendung generativer neuronaler Hash-Gitter zur Modellierung räumlicher 3D-Merkmale über Szenen hinweg vor. Insbesondere wird die Hash-Funktion F_theta verwendet, um Szenenmerkmale f_s und räumliche Punktkoordinaten x auf lernbare Parameter der Mehrskalenmischung abzubilden:

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren #🎜🎜 #

Um die dreidimensionale Konsistenz des Renderings sicherzustellen, verwenden wir ein auf Volumenrendering basierendes Rendering-Netzwerk, um die Abbildung dreidimensionaler Raummerkmale auf zweidimensionale Bilder abzuschließen. Für einen Punkt auf dem Kameralicht fragen wir das generative Hash-Gitter ab, um das entsprechende Merkmal f_x zu erhalten, verwenden durch Stilrauschen moduliertes mehrschichtiges MLP, um die Farbe und Volumendichte des entsprechenden Punkts zu erhalten, und verwenden schließlich Volumenrendering, um a zu konvertieren Punkt Alle Punkte auf dem Kamerastrahl werden in die Farbe des entsprechenden Pixels integriert.

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Das gesamte Framework wird direkt durchgängig auf 2D-Bildern durch kontradiktorisches Lernen trainiert. Der Generator ist der oben erwähnte Volumenrenderer, und für den Diskriminator verwenden wir ein semantikbewusstes diskriminierendes Netzwerk, um basierend auf der semantischen Karte, die aus der BEV-Darstellung auf die Kamera projiziert wird, zwischen realen und gerenderten Bildern zu unterscheiden. Weitere Einzelheiten finden Sie in unserem Dokument.

Nach Abschluss des Trainings können wir durch zufälliges Abtasten von Szenenrauschen und Stilrauschen verschiedene 3D-Szenen mit guten Tiefeninformationen und 3D-Konsistenz generieren und das kostenlose Rendern unterstützen Kamerabahnen:

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Durch den Schiebefenster-Inferenzmodus können wir sehr viel generieren große, grenzenlose 3D-Szenen, die die räumliche Auflösung des Trainings bei weitem übertreffen. Die folgende Abbildung zeigt eine Szene mit der zehnfachen räumlichen Auflösung des Trainings und führt eine reibungslose Interpolation sowohl für die Szenen- als auch für die Stildimensionen durch. Unser Framework unterstützt einen entkoppelten Modus, d. h. die separate Fixierung von Szenen oder Stilen für die Interpolation, was den semantischen Reichtum von widerspiegelt der latente Raum: 🎜#

Um die dreidimensionale Konsistenz unserer Methode zu überprüfen, verwenden wir auch eine kreisförmige Kameratrajektorie Um jede Szene zu rendern, wurde re COLMAP für die 3D-Rekonstruktion verwendet und es wurden bessere Szenenpunktwolken und passende Kamerapositionen erhalten, was zeigt, dass diese Methode eine Vielzahl von 3D-Szenen erzeugen und gleichzeitig die 3D-Konsistenz gewährleisten kann:

#🎜🎜 #

Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren

Diese Arbeit schlägt SceneDreamer vor, ein Modell zum Erzeugen unbegrenzter dreidimensionaler Szenen aus massiven zweidimensionalen Bildern. Wir sind in der Lage, aus Rauschen vielfältige großformatige 3D-Szenen zu synthetisieren und dabei die 3D-Konsistenz beizubehalten und freie Kamerabahnen zu unterstützen. Wir hoffen, dass diese Arbeit eine neue Erkundungsrichtung und Möglichkeit für die Spieleindustrie, die virtuelle Realität und die Metaverse-Ökologie bieten kann. Weitere Einzelheiten finden Sie auf unserer Projekthomepage.

Das obige ist der detaillierte Inhalt vonGenerieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

github https

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Eine kurze Analyse der Roadmap der visuellen Wahrnehmungstechnologie für autonomes FahrenNächster Artikel：Eine kurze Analyse der Roadmap der visuellen Wahrnehmungstechnologie für autonomes Fahren

In Verbindung stehende Artikel

Mehr sehen