Heim >Technologie-Peripheriegeräte >KI >Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

WBOY
WBOYnach vorne
2023-05-18 10:52:091626Durchsuche

Ultrahohe Auflösung wird von vielen Forschern als Standard für die Aufnahme und Anzeige hochwertiger Bilder und Videos begrüßt. Im Vergleich zu niedrigeren Auflösungen (1K-HD-Format) weisen mit hoher Auflösung aufgenommene Szenen normalerweise sehr klare Pixelinformationen auf durch kleine Patches verstärkt. Allerdings gibt es noch viele Herausforderungen bei der Anwendung dieser Technologie auf Bildverarbeitung und Computer Vision.

In diesem Artikel konzentrieren sich Forscher von Alibaba auf neue Ansichtssyntheseaufgaben und schlagen ein Framework namens 4K-NeRF vor, mit dessen NeRF-basierter Volumenrendering-Methode eine hohe Wiedergabetreue bei 4K-Ansichtskomposition erreicht werden kann.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Papieradresse: https://arxiv.org/abs/2212.04701

Projekthomepage: https://github.com/frozoul/4K-NeRF

Ohne Schauen wir uns zunächst den Effekt an (die folgenden Videos wurden heruntergesampelt, das ursprüngliche 4K-Video finden Sie im Originalprojekt).

Methoden

Als nächstes werfen wir einen Blick darauf, wie die Forschung durchgeführt wurde.

4K-NeRF-Pipeline (wie unten gezeigt): Verwenden Sie die Patch-basierte Ray-Sampling-Technologie, um VC-Encoder (View-Consistent) (basierend auf DEVO) gemeinsam zu trainieren, um dreidimensionale geometrische Informationen in einem Raum mit niedrigerer Auflösung zu codieren. und dann werden durch einen VC-Decoder eine hochfrequente, feine und hochwertige Wiedergabe und eine Verbesserung der Ansichtskonsistenz erreicht.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Studie instanziiert den Encoder basierend auf der in DVGO [32] definierten Formel und lernt eine voxelgitterbasierte Darstellung, um die Geometrie explizit zu codieren:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Für jeden Für jeden Abtastpunkt, Die trilineare Interpolation der Dichteschätzung ist mit einer Softplus-Aktivierungsfunktion ausgestattet, um den Volumendichtewert des Punktes zu generieren:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Farbe wird mit einem kleinen MLP geschätzt:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

In diesem Fall Auf diese Weise kann der charakteristische Wert jedes Strahls (oder Pixels) durch Akkumulieren der Eigenschaften der Abtastpunkte entlang der festgelegten Linie r erhalten werden:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Um die in den VC-Encoder-Eigenschaften eingebettete Geometrie besser zu nutzen, Die Studie erstellte auch eine Tiefenkarte, indem sie die Tiefe jedes Strahls r entlang der abgetasteten Strahlachse schätzte. Die geschätzte Tiefenkarte bietet einen starken Anhaltspunkt für die dreidimensionale Struktur der vom Encoder oben generierten Szene:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Das danach übergebene Netzwerk wird durch Stapeln mehrerer Faltungsblöcke erhalten (weder unter Verwendung nichtparametrischer Normalisierung noch unter Verwendung nichtparametrischer Normalisierung). Erstellt mithilfe von Downsampling-Operationen) und verschachtelten Upsampling-Operationen. Anstatt einfach das Merkmal F und die Tiefenkarte M zu verketten, verbindet diese Studie insbesondere das Tiefensignal in der Tiefenkarte und injiziert es durch eine erlernte Transformation in jeden Block, um Blockaktivierungen zu modulieren.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Anders als der Mechanismus auf Pixelebene bei herkömmlichen NeRF-Methoden zielt die in dieser Studie untersuchte Methode darauf ab, die räumlichen Informationen zwischen Strahlen (Pixeln) zu erfassen. Daher ist die Strategie der zufälligen Strahlenprobenahme in NeRF hier nicht geeignet. Daher schlägt diese Studie eine Patch-basierte Ray-Sampling-Trainingsstrategie vor, um die Erfassung der räumlichen Abhängigkeit zwischen Ray-Merkmalen zu erleichtern. Während des Trainings wird das Bild der Trainingsansicht zunächst in Patches p der Größe N_p×N_p unterteilt, um sicherzustellen, dass die Abtastwahrscheinlichkeit auf den Pixeln gleichmäßig ist. Wenn die Bildraumdimension nicht genau durch die Patchgröße geteilt werden kann, muss der Patch bis zum Rand gekürzt werden, um einen Satz Trainingspatches zu erhalten. Dann werden ein (oder mehrere) Patches zufällig aus dem Satz ausgewählt, und die Strahlen der Pixel im Patch bilden für jede Iteration einen Mini-Batch.

Um das Problem der Unschärfe oder übermäßigen Glättung von visuellen Effekten bei feinen Details zu lösen, fügt diese Forschung kontroversen Verlust und Wahrnehmungsverlust hinzu, um die Synthese feiner Details zu regulieren. Der Wahrnehmungsverlust Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da schätzt die Ähnlichkeit zwischen dem vorhergesagten Patch Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da und der Grundwahrheit p im Merkmalsraum durch ein vorab trainiertes 19-schichtiges VGG-Netzwerk:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Studie verwendet Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da Verlust anstelle von MSE zur Überwachung der Rekonstruktion hochfrequenter Details

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Darüber hinaus fügte die Studie auch einen zusätzlichen MSE-Verlust hinzu, und die endgültige Gesamtverlustfunktion hat die folgende Form:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Experimenteller Effekt

Qualitative Analyse

Das Experiment verglich 4K-NeRF mit anderen Modellen. Es ist ersichtlich, dass Methoden, die auf gewöhnlichem NeRF basieren, unterschiedliche Grade an Detailverlust und Unschärfe aufweisen. Im Gegensatz dazu liefert 4K-NeRF eine hochwertige fotorealistische Darstellung dieser komplexen und hochfrequenten Details, selbst bei Szenen mit einem begrenzten Trainingssichtfeld.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Quantitative Analyse

Diese Studie wurde mit mehreren aktuellen Methoden auf Basis von 4k-Daten verglichen, darunter Plenoxels, DVGO, JaxNeRF, MipNeRF-360 und NeRF-SR. Das Experiment verwendet nicht nur die Bewertungsindikatoren der Bildwiederherstellung als Vergleich, sondern stellt auch Inferenzzeit und Cache-Speicher für umfassende Bewertungsreferenzen bereit. Die Ergebnisse sind wie folgt:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Obwohl sich die Ergebnisse bei einigen Indikatoren nicht wesentlich von den Ergebnissen einiger Methoden unterscheiden, haben sie dank ihrer voxelbasierten Methode erstaunliche Leistungen sowohl bei der Argumentationseffizienz als auch bei den Speicherkosten erzielt , was das Rendern eines 4K-Bildes in 300 ms ermöglicht.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Zusammenfassung und Zukunftsausblick

Diese Studie untersucht die Fähigkeiten von NeRF bei der Modellierung feiner Details und schlägt ein neuartiges Framework vor, um seine Ausdruckskraft bei der Wiederherstellung ansichtskonsistenter feiner Details in Szenen mit extrem hohen Auflösungen zu verbessern. Darüber hinaus stellt diese Forschung auch ein Paar Encoder-Decoder-Module vor, die die geometrische Konsistenz aufrechterhalten, geometrische Eigenschaften in niedrigeren Räumen effektiv modellieren und lokale Korrelationen zwischen geometriebewussten Merkmalen nutzen, um Ansichten im gesamten Raum zu erzielen. Die verbesserte Konsistenz und Patch- Das auf der Probenahme basierende Trainings-Framework ermöglicht es der Methode auch, die Überwachung durch Perzeptron-orientierte Regularisierung zu integrieren. Diese Forschung hofft, die Auswirkungen des Frameworks in die dynamische Szenenmodellierung sowie in neuronale Rendering-Aufgaben als zukünftige Richtungen einzubeziehen.

Das obige ist der detaillierte Inhalt vonGott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen