Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da-KI-php.cn

Heim

Technologie-Peripheriegeräte

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 18, 2023 am 10:52 AM

ai视觉

Ultrahohe Auflösung wird von vielen Forschern als Standard für die Aufnahme und Anzeige hochwertiger Bilder und Videos begrüßt. Im Vergleich zu niedrigeren Auflösungen (1K-HD-Format) weisen mit hoher Auflösung aufgenommene Szenen normalerweise sehr klare Pixelinformationen auf durch kleine Patches verstärkt. Allerdings gibt es noch viele Herausforderungen bei der Anwendung dieser Technologie auf Bildverarbeitung und Computer Vision.

In diesem Artikel konzentrieren sich Forscher von Alibaba auf neue Ansichtssyntheseaufgaben und schlagen ein Framework namens 4K-NeRF vor, mit dessen NeRF-basierter Volumenrendering-Methode eine hohe Wiedergabetreue bei 4K-Ansichtskomposition erreicht werden kann.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Papieradresse: https://arxiv.org/abs/2212.04701

Projekthomepage: https://github.com/frozoul/4K-NeRF

Ohne Schauen wir uns zunächst den Effekt an (die folgenden Videos wurden heruntergesampelt, das ursprüngliche 4K-Video finden Sie im Originalprojekt).

Methoden

Als nächstes werfen wir einen Blick darauf, wie die Forschung durchgeführt wurde.

4K-NeRF-Pipeline (wie unten gezeigt): Verwenden Sie die Patch-basierte Ray-Sampling-Technologie, um VC-Encoder (View-Consistent) (basierend auf DEVO) gemeinsam zu trainieren, um dreidimensionale geometrische Informationen in einem Raum mit niedrigerer Auflösung zu codieren. und dann werden durch einen VC-Decoder eine hochfrequente, feine und hochwertige Wiedergabe und eine Verbesserung der Ansichtskonsistenz erreicht.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Studie instanziiert den Encoder basierend auf der in DVGO [32] definierten Formel und lernt eine voxelgitterbasierte Darstellung, um die Geometrie explizit zu codieren:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Für jeden Für jeden Abtastpunkt, Die trilineare Interpolation der Dichteschätzung ist mit einer Softplus-Aktivierungsfunktion ausgestattet, um den Volumendichtewert des Punktes zu generieren:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Farbe wird mit einem kleinen MLP geschätzt:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

In diesem Fall Auf diese Weise kann der charakteristische Wert jedes Strahls (oder Pixels) durch Akkumulieren der Eigenschaften der Abtastpunkte entlang der festgelegten Linie r erhalten werden:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Um die in den VC-Encoder-Eigenschaften eingebettete Geometrie besser zu nutzen, Die Studie erstellte auch eine Tiefenkarte, indem sie die Tiefe jedes Strahls r entlang der abgetasteten Strahlachse schätzte. Die geschätzte Tiefenkarte bietet einen starken Anhaltspunkt für die dreidimensionale Struktur der vom Encoder oben generierten Szene:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Das danach übergebene Netzwerk wird durch Stapeln mehrerer Faltungsblöcke erhalten (weder unter Verwendung nichtparametrischer Normalisierung noch unter Verwendung nichtparametrischer Normalisierung). Erstellt mithilfe von Downsampling-Operationen) und verschachtelten Upsampling-Operationen. Anstatt einfach das Merkmal F und die Tiefenkarte M zu verketten, verbindet diese Studie insbesondere das Tiefensignal in der Tiefenkarte und injiziert es durch eine erlernte Transformation in jeden Block, um Blockaktivierungen zu modulieren.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Anders als der Mechanismus auf Pixelebene bei herkömmlichen NeRF-Methoden zielt die in dieser Studie untersuchte Methode darauf ab, die räumlichen Informationen zwischen Strahlen (Pixeln) zu erfassen. Daher ist die Strategie der zufälligen Strahlenprobenahme in NeRF hier nicht geeignet. Daher schlägt diese Studie eine Patch-basierte Ray-Sampling-Trainingsstrategie vor, um die Erfassung der räumlichen Abhängigkeit zwischen Ray-Merkmalen zu erleichtern. Während des Trainings wird das Bild der Trainingsansicht zunächst in Patches p der Größe N_p×N_p unterteilt, um sicherzustellen, dass die Abtastwahrscheinlichkeit auf den Pixeln gleichmäßig ist. Wenn die Bildraumdimension nicht genau durch die Patchgröße geteilt werden kann, muss der Patch bis zum Rand gekürzt werden, um einen Satz Trainingspatches zu erhalten. Dann werden ein (oder mehrere) Patches zufällig aus dem Satz ausgewählt, und die Strahlen der Pixel im Patch bilden für jede Iteration einen Mini-Batch.

Um das Problem der Unschärfe oder übermäßigen Glättung von visuellen Effekten bei feinen Details zu lösen, fügt diese Forschung kontroversen Verlust und Wahrnehmungsverlust hinzu, um die Synthese feiner Details zu regulieren. Der Wahrnehmungsverlust Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da schätzt die Ähnlichkeit zwischen dem vorhergesagten Patch und der Grundwahrheit p im Merkmalsraum durch ein vorab trainiertes 19-schichtiges VGG-Netzwerk:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Die Studie verwendet Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da Verlust anstelle von MSE zur Überwachung der Rekonstruktion hochfrequenter Details

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Darüber hinaus fügte die Studie auch einen zusätzlichen MSE-Verlust hinzu, und die endgültige Gesamtverlustfunktion hat die folgende Form:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Experimenteller Effekt

Qualitative Analyse

Das Experiment verglich 4K-NeRF mit anderen Modellen. Es ist ersichtlich, dass Methoden, die auf gewöhnlichem NeRF basieren, unterschiedliche Grade an Detailverlust und Unschärfe aufweisen. Im Gegensatz dazu liefert 4K-NeRF eine hochwertige fotorealistische Darstellung dieser komplexen und hochfrequenten Details, selbst bei Szenen mit einem begrenzten Trainingssichtfeld.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Quantitative Analyse

Diese Studie wurde mit mehreren aktuellen Methoden auf Basis von 4k-Daten verglichen, darunter Plenoxels, DVGO, JaxNeRF, MipNeRF-360 und NeRF-SR. Das Experiment verwendet nicht nur die Bewertungsindikatoren der Bildwiederherstellung als Vergleich, sondern stellt auch Inferenzzeit und Cache-Speicher für umfassende Bewertungsreferenzen bereit. Die Ergebnisse sind wie folgt:

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Obwohl sich die Ergebnisse bei einigen Indikatoren nicht wesentlich von den Ergebnissen einiger Methoden unterscheiden, haben sie dank ihrer voxelbasierten Methode erstaunliche Leistungen sowohl bei der Argumentationseffizienz als auch bei den Speicherkosten erzielt , was das Rendern eines 4K-Bildes in 300 ms ermöglicht.

Gott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da

Zusammenfassung und Zukunftsausblick

Diese Studie untersucht die Fähigkeiten von NeRF bei der Modellierung feiner Details und schlägt ein neuartiges Framework vor, um seine Ausdruckskraft bei der Wiederherstellung ansichtskonsistenter feiner Details in Szenen mit extrem hohen Auflösungen zu verbessern. Darüber hinaus stellt diese Forschung auch ein Paar Encoder-Decoder-Module vor, die die geometrische Konsistenz aufrechterhalten, geometrische Eigenschaften in niedrigeren Räumen effektiv modellieren und lokale Korrelationen zwischen geometriebewussten Merkmalen nutzen, um Ansichten im gesamten Raum zu erzielen. Die verbesserte Konsistenz und Patch- Das auf der Probenahme basierende Trainings-Framework ermöglicht es der Methode auch, die Überwachung durch Perzeptron-orientierte Regularisierung zu integrieren. Diese Forschung hofft, die Auswirkungen des Frameworks in die dynamische Szenenmodellierung sowie in neuronale Rendering-Aufgaben als zukünftige Richtungen einzubeziehen.

Das obige ist der detaillierte Inhalt vonGott stellt komplexe Objekte und hochfrequente Details wieder her, die hochauflösende 4K-NeRF-Ansichtssynthese ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles