Die AIxiv-Kolumne unserer Website ist eine Kolumne über akademische und technische Inhalte. In den letzten Jahren hat die AIxiv-Kolumne auf unserer Website mehr als 2.000 Inhalte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Die E-Mail-Adresse für die Einreichung lautet liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.
Forscher der Hong Kong University of Science and Technology und der Tsinghua University schlugen „GenN2N“ vor, ein einheitliches generatives NeRF-zu-NeRF-Konvertierungsframework, das für verschiedene NeRF-Konvertierungsaufgaben wie textgesteuerte NeRF-Bearbeitung und Schattierung geeignet ist , Superauflösung, Reparatur usw., die Leistung ist extrem gut!
- Papieradresse: https://arxiv.org/abs/2404.02788
- Papierhomepage: https://xiangyueliu.github.io/GenN2N/
- Git Hub-Adresse: https://github.com/Lxiangyue/GenN2N
- Papiertitel: GenN2N: Generative NeRF2NeRF Translation
In den letzten Jahren haben Neural Radiation Fields (NeRF) aufgrund ihrer Kompaktheit viel Aufmerksamkeit auf sich gezogen , hohe Qualität und Vielseitigkeit Die Bereiche 3D-Rekonstruktion, 3D-Generierung und neue Perspektivensynthese haben große Aufmerksamkeit erregt. Sobald jedoch eine NeRF-Szene erstellt wurde, mangelt es diesen Methoden oft an weiterer Kontrolle über die resultierende Geometrie und das Erscheinungsbild. Daher ist NeRF Editing in letzter Zeit zu einem Forschungsschwerpunkt geworden, der Aufmerksamkeit verdient. Aktuelle NeRF-Bearbeitungsmethoden sind in der Regel aufgabenspezifisch, wie z. B. textgesteuerte Bearbeitung, Superauflösung, Inpainting und Kolorierung von NeRF. Diese Methoden erfordern ein hohes Maß an aufgabenspezifischen Domänenkenntnissen. Im Bereich der 2D-Bildbearbeitung ist es zu einem Trend geworden, universelle Bild-zu-Bild-Konvertierungsmethoden zu entwickeln. Beispielsweise wird das generative 2D-Modell Stable Difussion zur Unterstützung der multifunktionalen Bildbearbeitung verwendet. Daher schlagen wir eine universelle NeRF-Bearbeitung unter Verwendung zugrunde liegender generativer 2D-Modelle vor. Eine damit verbundene Herausforderung ist die Darstellungslücke zwischen NeRF- und 2D-Bildern, insbesondere da Bildbearbeitungsprogramme häufig mehrere inkonsistente Bearbeitungen für unterschiedliche Blickwinkel generieren. Eine aktuelle textbasierte NeRF-Bearbeitungsmethode, Instruct-NeRF2NeRF, untersucht dies. Es verwendet den Prozess „Rendering-Bearbeitung-Aggregation“, um die NeRF-Szene schrittweise zu aktualisieren, indem nach und nach Bilder mit mehreren Ansichten gerendert, diese Bilder bearbeitet und die bearbeiteten Bilder in NeRF aggregiert werden. Diese Bearbeitungsmethode kann jedoch nach umfangreicher Optimierung für spezifische Bearbeitungsanforderungen nur dann ein bestimmtes Bearbeitungsergebnis generieren, wenn der Benutzer nicht zufrieden ist, müssen iterative Versuche wiederholt werden. Daher haben wir „GenN2N“ vorgeschlagen, ein allgemeines NeRF-zu-NeRF-Framework, das für eine Vielzahl von NeRF-Bearbeitungsaufgaben geeignet ist. Sein Kern besteht darin, einen generativen Ansatz zu verwenden, um den Multilösungscharakter des Bearbeitungsprozesses zu charakterisieren. so dass Mithilfe der generativen Bearbeitung auf einfache Weise eine große Anzahl von Bearbeitungsergebnissen generiert werden kann, die den Anforderungen der Benutzer zur Auswahl entsprechen.
Im Kernteil von GenN2N wird 1) das generative Framework von 3D VAE-GAN eingeführt, wobei VAE verwendet wird, um den gesamten Bearbeitungsraum darzustellen und alle möglichen 3D-NeRF-Bearbeitungsverteilungen zu lernen, die einem Satz eingegebener 2D-Bearbeitungsbilder entsprechen , und verwenden Sie GAN, um eine angemessene Überwachung für die Bearbeitung verschiedener Ansichten von NeRF bereitzustellen, um die Authentizität der Bearbeitungsergebnisse sicherzustellen. 2) Verwenden Sie kontrastives Lernen, um die Bearbeitungsinhalte und -perspektiven zu entkoppeln, um die Konsistenz der Bearbeitungsinhalte zwischen verschiedenen Perspektiven sicherzustellen , Der Benutzer kann durch einfaches zufälliges Abtasten mehrerer Bearbeitungscodes aus dem bedingten Generierungsmodell verschiedene 3D-Bearbeitungsergebnisse generieren, die dem Bearbeitungsziel entsprechen.
Im Vergleich zu SOTA-Methoden für verschiedene NeRF-Bearbeitungsaufgaben (ICCV2023 Oral usw.) ist GenN2N bestehenden Methoden hinsichtlich Bearbeitungsqualität, Vielfalt, Effizienz usw. überlegen. Methodeneinführung
Wir führen zunächst eine 2D-Bildbearbeitung durch und aktualisieren diese 2D-Bearbeitungen dann auf 3D-NeRF, um eine generative NeRF-zu-NeRF-Konvertierung zu erreichen. A. Implicit Distill (Latent Distill) Wir verwenden das Latent Distill Module als Encoder von VAE, um einen impliziten Bearbeitungscode für jedes bearbeitete Bild zu lernen und diesen im Bearbeitungscode für die NeRF-zu-NeRF-Konvertierung zu übergeben steuert generierte Inhalte. Alle Bearbeitungscodes gehorchen einer guten Normalverteilung unter der Einschränkung des KL-Verlusts für eine bessere Stichprobenerhebung. Um den Bearbeitungsinhalt und die Perspektive zu entkoppeln, haben wir das kontrastive Lernen sorgfältig entworfen, um zu fördern, dass die Bearbeitungscodes von Bildern mit demselben Bearbeitungsstil, aber unterschiedlichen Perspektiven ähnlich sind und die Bearbeitungscodes von Bildern mit unterschiedlichen Bearbeitungsstilen, aber derselben Perspektive, weit entfernt sind voneinander weg. B.NeRF-zu-NeRF-Konvertierung (übersetzt NeRF) Wir verwenden die NeRF-zu-NeRF-Übersetzung als Decoder von VAE, der den Bearbeitungscode als Eingabe verwendet und das ursprüngliche NeRF modifiziert für ein umgebautes NeRF. Wir haben Restschichten zwischen den verborgenen Schichten des ursprünglichen NeRF-Netzwerks hinzugefügt. Diese Restschichten verwenden den Bearbeitungscode als Eingabe, um die Neuronen der verborgenen Schicht zu modulieren, sodass das konvertierte NeRF nicht nur die ursprünglichen NeRF-Informationen beibehalten, sondern auch die 3D-Konvertierung steuern kann basierend auf dem Bearbeitungscode. Gleichzeitig dient die NeRF-zu-NeRF-Übersetzung auch als Generator für die Teilnahme am generativen gegnerischen Training. Durch Generieren statt Optimieren können wir mehrere Konvertierungsergebnisse gleichzeitig erhalten und so die NeRF-Konvertierungseffizienz und Ergebnisvielfalt erheblich verbessern. C. Bedingter Diskriminator Die in NeRF konvertierten gerenderten Bilder bilden den zu unterscheidenden Generationsraum. Die Bearbeitungsstile und Rendering-Perspektiven dieser Bilder sind unterschiedlich, was den Generationsraum sehr komplex macht . . Daher stellen wir eine Bedingung als zusätzliche Information für den Diskriminator bereit. Insbesondere wenn der Diskriminator das vom Generator gerenderte Bild (negative Probe) oder das bearbeitete Bild (positive Probe) in den Trainingsdaten identifiziert, wählen wir ein bearbeitetes Bild derselben Perspektive aus den Trainingsdaten als Bedingung aus, was das verhindert Der Diskriminator wird nicht durch perspektivische Faktoren bei der Unterscheidung positiver und negativer Proben beeinträchtigt. Nach der GenN2N-Optimierung können Benutzer zufällig Bearbeitungscodes aus der Normalverteilung auswählen und den konvertierten NeRF eingeben, um qualitativ hochwertigen, mehrfach bearbeiteten 3D-NeRF zu generieren Szenen. Wir haben umfangreiche Experimente zu einer Vielzahl von NeRF-zu-NeRF-Aufgaben durchgeführt, darunter textgesteuerte NeRF-Bearbeitung, Kolorierung, Superauflösung, Inpainting usw. Experimentelle Ergebnisse belegen die überlegene Bearbeitungsqualität, Multi-View-Konsistenz, generierte Vielfalt und Bearbeitungseffizienz von GenN2N. A. Textbasierte NeRF-BearbeitungWeitere Experimente und Methoden finden Sie auf der Paper-Homepage. Dieser Artikel stammt vom Tan Ping-Team der Hong Kong University of Science and Technology, dem 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute Aufsatz ist Liu, ein Student der Hong Kong University of Science and Technology, Xue Han, ein Student der Tsinghua University, Luo Kunming, ein Student der Hong Kong University of Science and Technology, und die Dozenten sind Lehrer Yi Li aus Tsinghua Universität und Lehrer Tan Ping von der Hong Kong University of Science and Technology.
Das obige ist der detaillierte Inhalt vonCVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!