suchen
HeimTechnologie-PeripheriegeräteKICVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

Die AIxiv-Kolumne unserer Website ist eine Kolumne über akademische und technische Inhalte. In den letzten Jahren hat die AIxiv-Kolumne auf unserer Website mehr als 2.000 Inhalte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Die E-Mail-Adresse für die Einreichung lautet liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.


Forscher der Hong Kong University of Science and Technology und der Tsinghua University schlugen „GenN2N“ vor, ein einheitliches generatives NeRF-zu-NeRF-Konvertierungsframework, das für verschiedene NeRF-Konvertierungsaufgaben wie textgesteuerte NeRF-Bearbeitung und Schattierung geeignet ist , Superauflösung, Reparatur usw., die Leistung ist extrem gut! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • Papieradresse: https://arxiv.org/abs/2404.02788
  • Papierhomepage: https://xiangyueliu.github.io/GenN2N/
  • Git Hub-Adresse: https://github.com/Lxiangyue/GenN2N
  • Papiertitel: GenN2N: Generative NeRF2NeRF Translation

In den letzten Jahren haben Neural Radiation Fields (NeRF) aufgrund ihrer Kompaktheit viel Aufmerksamkeit auf sich gezogen , hohe Qualität und Vielseitigkeit Die Bereiche 3D-Rekonstruktion, 3D-Generierung und neue Perspektivensynthese haben große Aufmerksamkeit erregt. Sobald jedoch eine NeRF-Szene erstellt wurde, mangelt es diesen Methoden oft an weiterer Kontrolle über die resultierende Geometrie und das Erscheinungsbild. Daher ist NeRF Editing in letzter Zeit zu einem Forschungsschwerpunkt geworden, der Aufmerksamkeit verdient.

Aktuelle NeRF-Bearbeitungsmethoden sind in der Regel aufgabenspezifisch, wie z. B. textgesteuerte Bearbeitung, Superauflösung, Inpainting und Kolorierung von NeRF. Diese Methoden erfordern ein hohes Maß an aufgabenspezifischen Domänenkenntnissen. Im Bereich der 2D-Bildbearbeitung ist es zu einem Trend geworden, universelle Bild-zu-Bild-Konvertierungsmethoden zu entwickeln. Beispielsweise wird das generative 2D-Modell Stable Difussion zur Unterstützung der multifunktionalen Bildbearbeitung verwendet. Daher schlagen wir eine universelle NeRF-Bearbeitung unter Verwendung zugrunde liegender generativer 2D-Modelle vor.

Eine damit verbundene Herausforderung ist die Darstellungslücke zwischen NeRF- und 2D-Bildern, insbesondere da Bildbearbeitungsprogramme häufig mehrere inkonsistente Bearbeitungen für unterschiedliche Blickwinkel generieren. Eine aktuelle textbasierte NeRF-Bearbeitungsmethode, Instruct-NeRF2NeRF, untersucht dies. Es verwendet den Prozess „Rendering-Bearbeitung-Aggregation“, um die NeRF-Szene schrittweise zu aktualisieren, indem nach und nach Bilder mit mehreren Ansichten gerendert, diese Bilder bearbeitet und die bearbeiteten Bilder in NeRF aggregiert werden. Diese Bearbeitungsmethode kann jedoch nach umfangreicher Optimierung für spezifische Bearbeitungsanforderungen nur dann ein bestimmtes Bearbeitungsergebnis generieren, wenn der Benutzer nicht zufrieden ist, müssen iterative Versuche wiederholt werden.

Daher haben wir „GenN2N“ vorgeschlagen, ein allgemeines NeRF-zu-NeRF-Framework, das für eine Vielzahl von NeRF-Bearbeitungsaufgaben geeignet ist. Sein Kern besteht darin, einen generativen Ansatz zu verwenden, um den Multilösungscharakter des Bearbeitungsprozesses zu charakterisieren. so dass Mithilfe der generativen Bearbeitung auf einfache Weise eine große Anzahl von Bearbeitungsergebnissen generiert werden kann, die den Anforderungen der Benutzer zur Auswahl entsprechen.

Im Kernteil von GenN2N wird 1) das generative Framework von 3D VAE-GAN eingeführt, wobei VAE verwendet wird, um den gesamten Bearbeitungsraum darzustellen und alle möglichen 3D-NeRF-Bearbeitungsverteilungen zu lernen, die einem Satz eingegebener 2D-Bearbeitungsbilder entsprechen , und verwenden Sie GAN, um eine angemessene Überwachung für die Bearbeitung verschiedener Ansichten von NeRF bereitzustellen, um die Authentizität der Bearbeitungsergebnisse sicherzustellen. 2) Verwenden Sie kontrastives Lernen, um die Bearbeitungsinhalte und -perspektiven zu entkoppeln, um die Konsistenz der Bearbeitungsinhalte zwischen verschiedenen Perspektiven sicherzustellen , Der Benutzer kann durch einfaches zufälliges Abtasten mehrerer Bearbeitungscodes aus dem bedingten Generierungsmodell verschiedene 3D-Bearbeitungsergebnisse generieren, die dem Bearbeitungsziel entsprechen.

Im Vergleich zu SOTA-Methoden für verschiedene NeRF-Bearbeitungsaufgaben (ICCV2023 Oral usw.) ist GenN2N bestehenden Methoden hinsichtlich Bearbeitungsqualität, Vielfalt, Effizienz usw. überlegen.

Methodeneinführung

Wir führen zunächst eine 2D-Bildbearbeitung durch und aktualisieren diese 2D-Bearbeitungen dann auf 3D-NeRF, um eine generative NeRF-zu-NeRF-Konvertierung zu erreichen.

A. Implicit Distill (Latent Distill)

Wir verwenden das Latent Distill Module als Encoder von VAE, um einen impliziten Bearbeitungscode für jedes bearbeitete Bild zu lernen und diesen im Bearbeitungscode für die NeRF-zu-NeRF-Konvertierung zu übergeben steuert generierte Inhalte. Alle Bearbeitungscodes gehorchen einer guten Normalverteilung unter der Einschränkung des KL-Verlusts für eine bessere Stichprobenerhebung. Um den Bearbeitungsinhalt und die Perspektive zu entkoppeln, haben wir das kontrastive Lernen sorgfältig entworfen, um zu fördern, dass die Bearbeitungscodes von Bildern mit demselben Bearbeitungsstil, aber unterschiedlichen Perspektiven ähnlich sind und die Bearbeitungscodes von Bildern mit unterschiedlichen Bearbeitungsstilen, aber derselben Perspektive, weit entfernt sind voneinander weg.

B.NeRF-zu-NeRF-Konvertierung (übersetzt NeRF)

Wir verwenden die NeRF-zu-NeRF-Übersetzung als Decoder von VAE, der den Bearbeitungscode als Eingabe verwendet und das ursprüngliche NeRF modifiziert für ein umgebautes NeRF. Wir haben Restschichten zwischen den verborgenen Schichten des ursprünglichen NeRF-Netzwerks hinzugefügt. Diese Restschichten verwenden den Bearbeitungscode als Eingabe, um die Neuronen der verborgenen Schicht zu modulieren, sodass das konvertierte NeRF nicht nur die ursprünglichen NeRF-Informationen beibehalten, sondern auch die 3D-Konvertierung steuern kann basierend auf dem Bearbeitungscode. Gleichzeitig dient die NeRF-zu-NeRF-Übersetzung auch als Generator für die Teilnahme am generativen gegnerischen Training. Durch Generieren statt Optimieren können wir mehrere Konvertierungsergebnisse gleichzeitig erhalten und so die NeRF-Konvertierungseffizienz und Ergebnisvielfalt erheblich verbessern.

C. Bedingter Diskriminator

Die in NeRF konvertierten gerenderten Bilder bilden den zu unterscheidenden Generationsraum. Die Bearbeitungsstile und Rendering-Perspektiven dieser Bilder sind unterschiedlich, was den Generationsraum sehr komplex macht . . Daher stellen wir eine Bedingung als zusätzliche Information für den Diskriminator bereit. Insbesondere wenn der Diskriminator das vom Generator gerenderte Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (negative Probe) oder das bearbeitete Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (positive Probe) in den Trainingsdaten identifiziert, wählen wir ein bearbeitetes Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 derselben Perspektive aus den Trainingsdaten als Bedingung aus, was das verhindert Der Diskriminator wird nicht durch perspektivische Faktoren bei der Unterscheidung positiver und negativer Proben beeinträchtigt.

D. Inferenz

Nach der GenN2N-Optimierung können Benutzer zufällig Bearbeitungscodes aus der Normalverteilung auswählen und den konvertierten NeRF eingeben, um qualitativ hochwertigen, mehrfach bearbeiteten 3D-NeRF zu generieren Szenen.

Experimente

Wir haben umfangreiche Experimente zu einer Vielzahl von NeRF-zu-NeRF-Aufgaben durchgeführt, darunter textgesteuerte NeRF-Bearbeitung, Kolorierung, Superauflösung, Inpainting usw. Experimentelle Ergebnisse belegen die überlegene Bearbeitungsqualität, Multi-View-Konsistenz, generierte Vielfalt und Bearbeitungseffizienz von GenN2N.

A. Textbasierte NeRF-Bearbeitung CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B. CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Vergleichsexperimente CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Unsere Methode wird qualitativ und quantitativ verglichen mit SOTA-Methoden für verschiedene spezifische NeRF-Aufgaben ( einschließlich textgesteuerter Bearbeitung, Kolorierung, Superauflösung und Inpainting usw.). Die Ergebnisse zeigen, dass GenN2N als allgemeines Framework eine ebenso gute oder bessere Leistung erbringt als aufgabenspezifisches SOTA, während die Bearbeitungsergebnisse eine größere Vielfalt aufweisen (im Folgenden ist ein Vergleich zwischen GenN2N und Instruct-NeRF2NeRF für die textbasierte NeRF-Bearbeitungsaufgabe aufgeführt). ).

A. Textbasierte NeRF-BearbeitungCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
Weitere Experimente und Methoden finden Sie auf der Paper-Homepage.

Teamvorstellung

Dieser Artikel stammt vom Tan Ping-Team der Hong Kong University of Science and Technology, dem 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute Aufsatz ist Liu, ein Student der Hong Kong University of Science and Technology, Xue Han, ein Student der Tsinghua University, Luo Kunming, ein Student der Hong Kong University of Science and Technology, und die Dozenten sind Lehrer Yi Li aus Tsinghua Universität und Lehrer Tan Ping von der Hong Kong University of Science and Technology.

Das obige ist der detaillierte Inhalt vonCVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Neueste jährliche Zusammenstellung der besten technischen TechnikenNeueste jährliche Zusammenstellung der besten technischen TechnikenApr 10, 2025 am 11:22 AM

Für diejenigen unter Ihnen, die in meiner Kolumne neu sein könnten, erforsche ich allgemein die neuesten Fortschritte in der KI auf dem gesamten Vorstand, einschließlich Themen wie verkörpertes KI, KI-Argumentation, High-Tech

Europas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIEuropas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIApr 10, 2025 am 11:21 AM

Der ehrgeizige Aktionsplan in Europa Continent Continent zielt darauf ab, die EU als weltweit führend in der künstlichen Intelligenz zu etablieren. Ein Schlüsselelement ist die Schaffung eines Netzwerks von AI Gigafactories, in dem jeweils rund 100.000 fortschrittliche KI -Chips enthalten sind - das vierfache Capaci

Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Apr 10, 2025 am 11:20 AM

Der einheitliche Ansatz von Microsoft bei AI -Agentenanwendungen: Ein klarer Sieg für Unternehmen Die jüngste Ankündigung von Microsoft zu neuen KI -Agentenfunktionen beeindruckte von der klaren und einheitlichen Präsentation. Im Gegensatz zu vielen technischen Ankündigungen, die in TE festgefahren sind

Verkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoVerkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoApr 10, 2025 am 11:19 AM

Das jüngste Memo von Shopify -CEO Tobi Lütke erklärt kühn für jeden Mitarbeiter eine grundlegende Erwartung und kennzeichnet eine bedeutende kulturelle Veränderung innerhalb des Unternehmens. Dies ist kein flüchtiger Trend; Es ist ein neues operatives Paradigma, das in P integriert ist

IBM startet Z17 Mainframe mit vollem KI -IntegrationIBM startet Z17 Mainframe mit vollem KI -IntegrationApr 10, 2025 am 11:18 AM

IBMs Z17 Mainframe: Integration von KI für verbesserten Geschäftsbetrieb Letzten Monat erhielt ich im New Yorker Hauptquartier von IBM eine Vorschau auf die Fähigkeiten des Z17. Aufbau des Erfolgs des Z16 (im Jahr 2022 eingeführt und nachweisliche Einnahmen nachweisen

5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauen5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauenApr 10, 2025 am 11:17 AM

Schalte das unerschütterliche Vertrauen frei und beseitige die Notwendigkeit einer externen Validierung! Diese fünf Chatgpt-Eingabeaufforderungen führen Sie zu einer vollständigen Selbstständigkeit und einer transformativen Verschiebung der Selbstwahrnehmung. Einfach kopieren, einfügen und die Klammer anpassen

KI ist Ihnen gefährlich ähnlich wie Ihr GeistKI ist Ihnen gefährlich ähnlich wie Ihr GeistApr 10, 2025 am 11:16 AM

Eine aktuelle [Studie] von Anthropic, einer Sicherheit für künstliche Intelligenz und Forschungsunternehmen, beginnt die Wahrheit über diese komplexen Prozesse zu offenbaren und zeigt eine Komplexität, die unserer eigenen kognitiven Domäne beunruhigend ähnlich ist. Natürliche Intelligenz und künstliche Intelligenz können ähnlicher sein als wir denken. Snooping Inside: Anthropic Interpretierbarkeitsstudie Die neuen Ergebnisse der von Anthropic durchgeführten Forschungsergebnisse stellen im Bereich der mechanistischen Interpretierbarkeit erhebliche Fortschritte dar, die darauf abzielen, das interne Computer der KI zu verkehren - nicht nur zu beobachten, was KI tut, sondern verstehen, wie es auf künstlicher Neuronebene tut. Stellen Sie sich vor, Sie versuchen, das Gehirn zu verstehen, indem Sie zeichnen, welche Neuronen feuern, wenn jemand ein bestimmtes Objekt sieht oder über eine bestimmte Idee nachdenkt. A

Dragonwing präsentiert Qualcomms Edge -DynamikDragonwing präsentiert Qualcomms Edge -DynamikApr 10, 2025 am 11:14 AM

Qualcomms Dragonwing: Ein strategischer Sprung in Unternehmen und Infrastruktur Qualcomm erweitert seine Reichweite über Mobile aggressiv und zielt auf Unternehmens- und Infrastrukturmärkte weltweit mit seiner neuen Dragonwing -Marke ab. Dies ist nicht nur eine Rebran

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung