Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

WBOY
WBOYnach vorne
2024-04-30 16:50:14907Durchsuche

Originaltitel: NeRF-XL: Scaling NeRFs with Multiple GPUs

Papierlink: https://research.nvidia.com/labs/toronto-ai/nerfxl/assets/nerfxl.pdf

Projektlink: https:/ / /research.nvidia.com/labs/toronto-ai/nerfxl/

Autorenzugehörigkeit: NVIDIA University of California, Berkeley

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Thesis-Idee:

Dieses Papier schlägt NeRF-XL vor, was ein Prinzip ist Methode zur Verteilung von Neural Ray Fields (NeRFs) auf mehrere Grafikprozessoren (GPUs), wodurch das Training und Rendering von NeRFs mit beliebig großen Kapazitäten ermöglicht wird. In diesem Artikel werden zunächst mehrere bestehende GPU-Methoden untersucht, die große Szenen in mehrere unabhängig trainierte NeRFs zerlegen [9, 15, 17], und mehrere grundlegende Probleme bei diesen Methoden identifiziert, die problematisch sind, wenn zusätzliche Rechenressourcen (GPUs) für das Training verwendet werden und die Verbesserung der Rekonstruktion behindern Qualität. NeRF-XL löst diese Probleme und ermöglicht das Trainieren und Rendern von NeRFs mit einer beliebigen Anzahl von Parametern, indem einfach mehr Hardware verwendet wird. Der Kern unseres Ansatzes ist eine neuartige verteilte Trainings- und Rendering-Formulierung, die mathematisch dem klassischen Einzel-GPU-Fall entspricht und die Kommunikation zwischen GPUs minimiert. Durch das Entsperren von NeRFs mit einer beliebig großen Anzahl von Parametern ist unsere Methode die erste, die die GPU-Skalierungsgesetze von NeRFs aufdeckt und eine verbesserte Rekonstruktionsqualität zeigt, wenn die Anzahl der Parameter zunimmt und mehr GPUs verwendet werden. Die Geschwindigkeit nimmt mit zunehmender Anzahl zu. Dieses Papier demonstriert die Wirksamkeit von NeRF-XL anhand verschiedener Datensätze, darunter MatrixCity [5], das etwa 258.000 Bilder enthält und ein Stadtgebiet von 25 Quadratkilometern abdeckt.

Papierdesign:

Die jüngsten Fortschritte in der Synthese neuer Perspektiven haben unsere Fähigkeit zur Erfassung neuronaler Strahlungsfelder (NeRFs) erheblich verbessert und den Prozess dadurch zugänglicher gemacht. Diese Fortschritte ermöglichen es uns, größere Szenen und feinere Details darin zu rekonstruieren. Ob durch die Vergrößerung des räumlichen Maßstabs (z. B. die Erfassung von Kilometern einer Stadtlandschaft) oder die Erhöhung des Detaillierungsgrades (z. B. durch das Scannen von Grashalmen auf einem Feld): Die Erweiterung des Umfangs einer erfassten Szene erfordert die Integration einer größeren Menge an Informationen in NeRF Erzielen Sie eine genaue Rekonstruktion. Daher kann bei informationsreichen Szenen die Anzahl der für die Rekonstruktion erforderlichen trainierbaren Parameter die Speicherkapazität einer einzelnen GPU übersteigen.

In diesem Artikel wird NeRF-XL vorgeschlagen, ein prinzipieller Algorithmus zur effizienten Verteilung neuronaler Radialszenen (NeRFs) auf mehrere GPUs. Die Methode in diesem Artikel ermöglicht die Erfassung von Szenen mit hohem Informationsgehalt (einschließlich Szenen mit großformatigen und detaillierten Funktionen), indem einfach die Hardwareressourcen erhöht werden. Der Kern von NeRF-XL besteht darin, NeRF-Parameter einem Satz disjunkter räumlicher Regionen zuzuweisen und sie gemeinsam über GPUs hinweg zu trainieren. Im Gegensatz zu herkömmlichen verteilten Trainingsprozessen, die Gradienten bei der Rückwärtsausbreitung synchronisieren, muss unsere Methode nur Informationen bei der Vorwärtsausbreitung synchronisieren. Darüber hinaus reduzieren wir durch die sorgfältige Darstellung der Gleichungen und zugehörigen Verlustterme in einer verteilten Umgebung den erforderlichen Datentransfer zwischen GPUs erheblich. Diese neuartige Neufassung verbessert die Trainings- und Rendering-Effizienz. Die Flexibilität und Skalierbarkeit dieser Methode ermöglichen es diesem Artikel, mehrere GPUs effizient zu optimieren und mehrere GPUs für eine effiziente Leistungsoptimierung zu verwenden.

Unsere Arbeit steht im Gegensatz zu neueren Ansätzen, die GPU-Algorithmen zur Modellierung großräumiger Szenen durch das Training einer Reihe unabhängiger stereoskopischer NeRFs übernommen haben [9, 15, 17]. Obwohl diese Methoden keine Kommunikation zwischen GPUs erfordern, muss jeder NeRF den gesamten Raum, einschließlich Hintergrundbereiche, modellieren. Dies führt zu einer erhöhten Redundanz der Modellkapazität, wenn die Anzahl der GPUs zunimmt. Darüber hinaus erfordern diese Methoden das Mischen von NeRFs beim Rendern, was die visuelle Qualität beeinträchtigt und Artefakte in überlappenden Bereichen verursacht. Daher verwenden diese Methoden im Gegensatz zu NeRF-XL mehr Modellparameter im Training (entspricht mehr GPUs) und erzielen keine Verbesserungen der visuellen Qualität.

Dieses Papier demonstriert die Wirksamkeit unseres Ansatzes anhand verschiedener Erfassungsfälle, darunter Straßenscans, Drohnenüberflüge und objektzentrierte Videos. Die Fälle reichen von kleinen Szenen (10 Quadratmeter) bis hin zu ganzen Städten (25 Quadratkilometer). Unsere Experimente zeigen, dass NeRF-XL beginnt, eine verbesserte visuelle Qualität (gemessen durch PSNR) und eine verbesserte Rendering-Geschwindigkeit zu erreichen, wenn wir dem Optimierungsprozess mehr Rechenressourcen zuweisen. Daher ermöglicht NeRF-XL das Training von NeRF mit beliebiger Kapazität für Szenen jeder räumlichen Skala und jedes Detail.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 1: Der prinzipielle verteilte Multi-GPU-Trainingsalgorithmus dieses Artikels kann NeRFs auf jeden großen Maßstab skalieren.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 2: Unabhängiges Training und gemeinsames Training mit mehreren GPUs. Das unabhängige Training mehrerer NeRFs [9, 15, 18] erfordert, dass jeder NeRF sowohl die Fokusregion als auch seine Umgebung modelliert, was zu einer Redundanz der Modellkapazität führt. Im Gegensatz dazu verwendet unsere gemeinsame Trainingsmethode nicht überlappende NeRFs und weist daher keine Redundanz auf.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 3: Unabhängiges Training erfordert eine Mischung, wenn neue Perspektiven synthetisiert werden. Unabhängig davon, ob die Überblendung in 2D [9, 15] oder 3D [18] durchgeführt wird, wird beim Rendern Unschärfe eingeführt.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 4: Selbstständiges Training führt zu unterschiedlichen Kameraoptimierungen. In NeRF kann eine Kameraoptimierung erreicht werden, indem die ungenaue Kamera selbst oder alle anderen Kameras sowie die zugrunde liegende 3D-Szene transformiert werden. Daher kann das unabhängige Training mehrerer NeRFs zusammen mit der Kameraoptimierung zu Inkonsistenzen bei Kamerakorrekturen und Szenengeometrie führen, was das Hybrid-Rendering schwieriger macht.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 5: Visuelle Artefakte, die durch 3D-Überblendung verursacht werden können. Das Bild links zeigt die Ergebnisse des MegaNeRF-Trainings mit 2 GPUs. Bei einer Überlappung von 0 % treten aufgrund des unabhängigen Trainings Artefakte an den Grenzen auf, während bei einer Überlappung von 15 % aufgrund der 3D-Überblendung schwerwiegende Artefakte auftreten. Das Bild rechts veranschaulicht die Ursache dieses Artefakts: Während jedes unabhängig trainierte NeRF die richtige Farbe wiedergibt, garantiert das gemischte NeRF keine korrekte Farbwiedergabe.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 6: Der Trainingsprozess dieses Artikels. Unsere Methode trainiert gemeinsam mehrere NeRFs auf allen GPUs, wobei jeder NeRF einen disjunkten räumlichen Bereich abdeckt. Die Kommunikation zwischen GPUs erfolgt nur im Vorwärtsdurchlauf und nicht im Rückwärtsdurchlauf (wie durch den grauen Pfeil angezeigt). (a) Dieses Papier kann implementiert werden, indem jedes NeRF ausgewertet wird, um Beispielfarbe und -dichte zu erhalten, und diese Werte dann für das globale Volumenrendering an alle anderen GPUs gesendet werden (siehe Abschnitt 4.2). (b) Durch Umschreiben der Volumenwiedergabegleichung kann dieser Artikel die Menge der Datenübertragung deutlich auf einen Wert pro Strahl reduzieren und so die Effizienz verbessern (siehe Abschnitt 4.3).

Experimentelle Ergebnisse:

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 7: Qualitativer Vergleich. Im Vergleich zu früheren Arbeiten nutzt unsere Methode Multi-GPU-Konfigurationen effektiv und verbessert die Leistung bei allen Datentypen.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 8: Quantitativer Vergleich. Frühere Arbeiten, die auf unabhängigem Training basierten, konnten durch das Hinzufügen zusätzlicher GPUs keine Leistungsverbesserungen erzielen, während unsere Methode mit zunehmenden Trainingsressourcen Verbesserungen bei der Rendering-Qualität und -Geschwindigkeit verzeichnet.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 9: Skalierbarkeit der Methode in diesem Artikel. Mehr GPUs ermöglichen mehr lernbare Parameter, was zu einer größeren Modellkapazität und besserer Qualität führt.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 10: Mehr Rendering-Ergebnisse bei großflächiger Erfassung. In diesem Artikel wird die Robustheit unserer Methode anhand eines größeren erfassten Datensatzes mit mehr GPUs getestet. Eine Videotour durch diese Daten finden Sie auf der Webseite dieses Artikels.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 11: Vergleich mit PyTorch DDP im University4-Datensatz. PyTorch Distributed Data Parallel (DDP) soll das Rendern beschleunigen, indem es Licht über die GPU verteilt. Im Gegensatz dazu verteilt unsere Methode Parameter auf GPUs, wodurch die Speicherbeschränkungen einer einzelnen GPU im Cluster durchbrochen werden und die Modellkapazität für eine bessere Qualität erweitert werden kann.

Die größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!

Abbildung 12: Synchronisierungskosten auf University4. Unser partitionsbasiertes Volumenrendering (siehe Abschnitt 4.3) ermöglicht eine kachelbasierte Kommunikation, die deutlich kostengünstiger ist als die ursprüngliche beispielbasierte Kommunikation (siehe Abschnitt 4.2) und daher ein schnelleres Rendering ermöglicht.

Zusammenfassung:

Zusammenfassend untersucht dieser Artikel bestehende Methoden zur Zerlegung großräumiger Szenen in unabhängig trainierte NeRFs (Neural Radiation Fields) und entdeckt erhebliche Hindernisse, die die effektive Nutzung zusätzlicher Rechenressourcen (GPUs) behindern. Dies widerspricht dem Kernziel, Multi-GPU-Setups zu nutzen, um die NeRF-Leistung im großen Maßstab zu verbessern. Daher stellt dieses Dokument NeRF-XL vor, einen prinzipiellen Algorithmus, der in der Lage ist, Multi-GPU-Setups effizient zu nutzen und die NeRF-Leistung in jeder Größenordnung durch gemeinsames Training mehrerer nicht überlappender NeRFs zu verbessern. Wichtig ist, dass unsere Methode nicht auf heuristischen Regeln beruht, den Skalierungsgesetzen von NeRF in einer Multi-GPU-Umgebung folgt und auf verschiedene Datentypen anwendbar ist.

Zitat:

@misc{li2024nerfxl,title={NeRF-XL: Scaling NeRFs with Multiple GPUs}, author={Ruilong Li and Sanja Fidler and Angjoo Kanazawa and Francis Williams},year={2024},eprint={2404.16221},archivePrefix={arXiv},primaryClass={cs.CV}}

Das obige ist der detaillierte Inhalt vonDie größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen