CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht-KI-php.cn

CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 19, 2024 pm 09:40 PM

git工程genn2n

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

Die AIxiv-Kolumne unserer Website ist eine Kolumne über akademische und technische Inhalte. In den letzten Jahren hat die AIxiv-Kolumne auf unserer Website mehr als 2.000 Inhalte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Die E-Mail-Adresse für die Einreichung lautet liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Forscher der Hong Kong University of Science and Technology und der Tsinghua University schlugen „GenN2N“ vor, ein einheitliches generatives NeRF-zu-NeRF-Konvertierungsframework, das für verschiedene NeRF-Konvertierungsaufgaben wie textgesteuerte NeRF-Bearbeitung und Schattierung geeignet ist , Superauflösung, Reparatur usw., die Leistung ist extrem gut!

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

Papieradresse: https://arxiv.org/abs/2404.02788
Papierhomepage: https://xiangyueliu.github.io/GenN2N/
Git Hub-Adresse: https://github.com/Lxiangyue/GenN2N
Papiertitel: GenN2N: Generative NeRF2NeRF Translation

In den letzten Jahren haben Neural Radiation Fields (NeRF) aufgrund ihrer Kompaktheit viel Aufmerksamkeit auf sich gezogen , hohe Qualität und Vielseitigkeit Die Bereiche 3D-Rekonstruktion, 3D-Generierung und neue Perspektivensynthese haben große Aufmerksamkeit erregt. Sobald jedoch eine NeRF-Szene erstellt wurde, mangelt es diesen Methoden oft an weiterer Kontrolle über die resultierende Geometrie und das Erscheinungsbild. Daher ist NeRF Editing in letzter Zeit zu einem Forschungsschwerpunkt geworden, der Aufmerksamkeit verdient.

Aktuelle NeRF-Bearbeitungsmethoden sind in der Regel aufgabenspezifisch, wie z. B. textgesteuerte Bearbeitung, Superauflösung, Inpainting und Kolorierung von NeRF. Diese Methoden erfordern ein hohes Maß an aufgabenspezifischen Domänenkenntnissen. Im Bereich der 2D-Bildbearbeitung ist es zu einem Trend geworden, universelle Bild-zu-Bild-Konvertierungsmethoden zu entwickeln. Beispielsweise wird das generative 2D-Modell Stable Difussion zur Unterstützung der multifunktionalen Bildbearbeitung verwendet. Daher schlagen wir eine universelle NeRF-Bearbeitung unter Verwendung zugrunde liegender generativer 2D-Modelle vor.

Eine damit verbundene Herausforderung ist die Darstellungslücke zwischen NeRF- und 2D-Bildern, insbesondere da Bildbearbeitungsprogramme häufig mehrere inkonsistente Bearbeitungen für unterschiedliche Blickwinkel generieren. Eine aktuelle textbasierte NeRF-Bearbeitungsmethode, Instruct-NeRF2NeRF, untersucht dies. Es verwendet den Prozess „Rendering-Bearbeitung-Aggregation“, um die NeRF-Szene schrittweise zu aktualisieren, indem nach und nach Bilder mit mehreren Ansichten gerendert, diese Bilder bearbeitet und die bearbeiteten Bilder in NeRF aggregiert werden. Diese Bearbeitungsmethode kann jedoch nach umfangreicher Optimierung für spezifische Bearbeitungsanforderungen nur dann ein bestimmtes Bearbeitungsergebnis generieren, wenn der Benutzer nicht zufrieden ist, müssen iterative Versuche wiederholt werden.

Daher haben wir „GenN2N“ vorgeschlagen, ein allgemeines NeRF-zu-NeRF-Framework, das für eine Vielzahl von NeRF-Bearbeitungsaufgaben geeignet ist. Sein Kern besteht darin, einen generativen Ansatz zu verwenden, um den Multilösungscharakter des Bearbeitungsprozesses zu charakterisieren. so dass Mithilfe der generativen Bearbeitung auf einfache Weise eine große Anzahl von Bearbeitungsergebnissen generiert werden kann, die den Anforderungen der Benutzer zur Auswahl entsprechen.

Im Kernteil von GenN2N wird 1) das generative Framework von 3D VAE-GAN eingeführt, wobei VAE verwendet wird, um den gesamten Bearbeitungsraum darzustellen und alle möglichen 3D-NeRF-Bearbeitungsverteilungen zu lernen, die einem Satz eingegebener 2D-Bearbeitungsbilder entsprechen , und verwenden Sie GAN, um eine angemessene Überwachung für die Bearbeitung verschiedener Ansichten von NeRF bereitzustellen, um die Authentizität der Bearbeitungsergebnisse sicherzustellen. 2) Verwenden Sie kontrastives Lernen, um die Bearbeitungsinhalte und -perspektiven zu entkoppeln, um die Konsistenz der Bearbeitungsinhalte zwischen verschiedenen Perspektiven sicherzustellen , Der Benutzer kann durch einfaches zufälliges Abtasten mehrerer Bearbeitungscodes aus dem bedingten Generierungsmodell verschiedene 3D-Bearbeitungsergebnisse generieren, die dem Bearbeitungsziel entsprechen.

Im Vergleich zu SOTA-Methoden für verschiedene NeRF-Bearbeitungsaufgaben (ICCV2023 Oral usw.) ist GenN2N bestehenden Methoden hinsichtlich Bearbeitungsqualität, Vielfalt, Effizienz usw. überlegen.

Methodeneinführung

Wir führen zunächst eine 2D-Bildbearbeitung durch und aktualisieren diese 2D-Bearbeitungen dann auf 3D-NeRF, um eine generative NeRF-zu-NeRF-Konvertierung zu erreichen.

A. Implicit Distill (Latent Distill)

Wir verwenden das Latent Distill Module als Encoder von VAE, um einen impliziten Bearbeitungscode für jedes bearbeitete Bild zu lernen und diesen im Bearbeitungscode für die NeRF-zu-NeRF-Konvertierung zu übergeben steuert generierte Inhalte. Alle Bearbeitungscodes gehorchen einer guten Normalverteilung unter der Einschränkung des KL-Verlusts für eine bessere Stichprobenerhebung. Um den Bearbeitungsinhalt und die Perspektive zu entkoppeln, haben wir das kontrastive Lernen sorgfältig entworfen, um zu fördern, dass die Bearbeitungscodes von Bildern mit demselben Bearbeitungsstil, aber unterschiedlichen Perspektiven ähnlich sind und die Bearbeitungscodes von Bildern mit unterschiedlichen Bearbeitungsstilen, aber derselben Perspektive, weit entfernt sind voneinander weg.

B.NeRF-zu-NeRF-Konvertierung (übersetzt NeRF)

Wir verwenden die NeRF-zu-NeRF-Übersetzung als Decoder von VAE, der den Bearbeitungscode als Eingabe verwendet und das ursprüngliche NeRF modifiziert für ein umgebautes NeRF. Wir haben Restschichten zwischen den verborgenen Schichten des ursprünglichen NeRF-Netzwerks hinzugefügt. Diese Restschichten verwenden den Bearbeitungscode als Eingabe, um die Neuronen der verborgenen Schicht zu modulieren, sodass das konvertierte NeRF nicht nur die ursprünglichen NeRF-Informationen beibehalten, sondern auch die 3D-Konvertierung steuern kann basierend auf dem Bearbeitungscode. Gleichzeitig dient die NeRF-zu-NeRF-Übersetzung auch als Generator für die Teilnahme am generativen gegnerischen Training. Durch Generieren statt Optimieren können wir mehrere Konvertierungsergebnisse gleichzeitig erhalten und so die NeRF-Konvertierungseffizienz und Ergebnisvielfalt erheblich verbessern.

C. Bedingter Diskriminator

Die in NeRF konvertierten gerenderten Bilder bilden den zu unterscheidenden Generationsraum. Die Bearbeitungsstile und Rendering-Perspektiven dieser Bilder sind unterschiedlich, was den Generationsraum sehr komplex macht . . Daher stellen wir eine Bedingung als zusätzliche Information für den Diskriminator bereit. Insbesondere wenn der Diskriminator das vom Generator gerenderte Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(negative Probe) oder das bearbeitete Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(positive Probe) in den Trainingsdaten identifiziert, wählen wir ein bearbeitetes Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

derselben Perspektive aus den Trainingsdaten als Bedingung aus, was das verhindert Der Diskriminator wird nicht durch perspektivische Faktoren bei der Unterscheidung positiver und negativer Proben beeinträchtigt.

D. Inferenz

Nach der GenN2N-Optimierung können Benutzer zufällig Bearbeitungscodes aus der Normalverteilung auswählen und den konvertierten NeRF eingeben, um qualitativ hochwertigen, mehrfach bearbeiteten 3D-NeRF zu generieren Szenen.

Experimente

Wir haben umfangreiche Experimente zu einer Vielzahl von NeRF-zu-NeRF-Aufgaben durchgeführt, darunter textgesteuerte NeRF-Bearbeitung, Kolorierung, Superauflösung, Inpainting usw. Experimentelle Ergebnisse belegen die überlegene Bearbeitungsqualität, Multi-View-Konsistenz, generierte Vielfalt und Bearbeitungseffizienz von GenN2N.

A. Textbasierte NeRF-Bearbeitung

Vergleichsexperimente

Unsere Methode wird qualitativ und quantitativ verglichen mit SOTA-Methoden für verschiedene spezifische NeRF-Aufgaben ( einschließlich textgesteuerter Bearbeitung, Kolorierung, Superauflösung und Inpainting usw.). Die Ergebnisse zeigen, dass GenN2N als allgemeines Framework eine ebenso gute oder bessere Leistung erbringt als aufgabenspezifisches SOTA, während die Bearbeitungsergebnisse eine größere Vielfalt aufweisen (im Folgenden ist ein Vergleich zwischen GenN2N und Instruct-NeRF2NeRF für die textbasierte NeRF-Bearbeitungsaufgabe aufgeführt). ).

A. Textbasierte NeRF-Bearbeitung

Weitere Experimente und Methoden finden Sie auf der Paper-Homepage.

Teamvorstellung

Dieser Artikel stammt vom Tan Ping-Team der Hong Kong University of Science and Technology, dem 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute Aufsatz ist Liu, ein Student der Hong Kong University of Science and Technology, Xue Han, ein Student der Tsinghua University, Luo Kunming, ein Student der Hong Kong University of Science and Technology, und die Dozenten sind Lehrer Yi Li aus Tsinghua Universität und Lehrer Tan Ping von der Hong Kong University of Science and Technology.

Das obige ist der detaillierte Inhalt vonCVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Kompetenzlücke verlangsamt die VersorgungskettenApr 26, 2025 am 11:13 AM

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Wie ein Unternehmen leise daran arbeitet, die KI für immer zu verwandelnApr 26, 2025 am 11:12 AM

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Nvidia veröffentlicht Nemo Microservices, um die Entwicklung der AI -Agenten zu optimierenApr 26, 2025 am 11:11 AM

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

KI malt ein neues Bild für die Zukunft von Kunst und DesignApr 26, 2025 am 11:10 AM

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Wie Zoom die Arbeit mit Agentic AI: Von Meetings bis Meilensteinen revolutioniertApr 26, 2025 am 11:09 AM

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Die existenzielle Bedrohung für UniversitätenApr 26, 2025 am 11:08 AM

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Der Prototyp: Amerikanische Wissenschaftler suchen nach Jobs im AuslandApr 26, 2025 am 11:07 AM

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

Alles über Open AIs neueste GPT 4.1 -Familie - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vorByDDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vorByDDD

Heiße Werkzeuge

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),