


Originaltitel: NeRF-XL: Scaling NeRFs with Multiple GPUs
Papierlink: https://research.nvidia.com/labs/toronto-ai/nerfxl/assets/nerfxl.pdf
Projektlink: https:/ / /research.nvidia.com/labs/toronto-ai/nerfxl/
Autorenzugehörigkeit: NVIDIA University of California, Berkeley
Thesis-Idee:
Dieses Papier schlägt NeRF-XL vor, was ein Prinzip ist Methode zur Verteilung von Neural Ray Fields (NeRFs) auf mehrere Grafikprozessoren (GPUs), wodurch das Training und Rendering von NeRFs mit beliebig großen Kapazitäten ermöglicht wird. In diesem Artikel werden zunächst mehrere bestehende GPU-Methoden untersucht, die große Szenen in mehrere unabhängig trainierte NeRFs zerlegen [9, 15, 17], und mehrere grundlegende Probleme bei diesen Methoden identifiziert, die problematisch sind, wenn zusätzliche Rechenressourcen (GPUs) für das Training verwendet werden und die Verbesserung der Rekonstruktion behindern Qualität. NeRF-XL löst diese Probleme und ermöglicht das Trainieren und Rendern von NeRFs mit einer beliebigen Anzahl von Parametern, indem einfach mehr Hardware verwendet wird. Der Kern unseres Ansatzes ist eine neuartige verteilte Trainings- und Rendering-Formulierung, die mathematisch dem klassischen Einzel-GPU-Fall entspricht und die Kommunikation zwischen GPUs minimiert. Durch das Entsperren von NeRFs mit einer beliebig großen Anzahl von Parametern ist unsere Methode die erste, die die GPU-Skalierungsgesetze von NeRFs aufdeckt und eine verbesserte Rekonstruktionsqualität zeigt, wenn die Anzahl der Parameter zunimmt und mehr GPUs verwendet werden. Die Geschwindigkeit nimmt mit zunehmender Anzahl zu. Dieses Papier demonstriert die Wirksamkeit von NeRF-XL anhand verschiedener Datensätze, darunter MatrixCity [5], das etwa 258.000 Bilder enthält und ein Stadtgebiet von 25 Quadratkilometern abdeckt.
Papierdesign:
Die jüngsten Fortschritte in der Synthese neuer Perspektiven haben unsere Fähigkeit zur Erfassung neuronaler Strahlungsfelder (NeRFs) erheblich verbessert und den Prozess dadurch zugänglicher gemacht. Diese Fortschritte ermöglichen es uns, größere Szenen und feinere Details darin zu rekonstruieren. Ob durch die Vergrößerung des räumlichen Maßstabs (z. B. die Erfassung von Kilometern einer Stadtlandschaft) oder die Erhöhung des Detaillierungsgrades (z. B. durch das Scannen von Grashalmen auf einem Feld): Die Erweiterung des Umfangs einer erfassten Szene erfordert die Integration einer größeren Menge an Informationen in NeRF Erzielen Sie eine genaue Rekonstruktion. Daher kann bei informationsreichen Szenen die Anzahl der für die Rekonstruktion erforderlichen trainierbaren Parameter die Speicherkapazität einer einzelnen GPU übersteigen.
In diesem Artikel wird NeRF-XL vorgeschlagen, ein prinzipieller Algorithmus zur effizienten Verteilung neuronaler Radialszenen (NeRFs) auf mehrere GPUs. Die Methode in diesem Artikel ermöglicht die Erfassung von Szenen mit hohem Informationsgehalt (einschließlich Szenen mit großformatigen und detaillierten Funktionen), indem einfach die Hardwareressourcen erhöht werden. Der Kern von NeRF-XL besteht darin, NeRF-Parameter einem Satz disjunkter räumlicher Regionen zuzuweisen und sie gemeinsam über GPUs hinweg zu trainieren. Im Gegensatz zu herkömmlichen verteilten Trainingsprozessen, die Gradienten bei der Rückwärtsausbreitung synchronisieren, muss unsere Methode nur Informationen bei der Vorwärtsausbreitung synchronisieren. Darüber hinaus reduzieren wir durch die sorgfältige Darstellung der Gleichungen und zugehörigen Verlustterme in einer verteilten Umgebung den erforderlichen Datentransfer zwischen GPUs erheblich. Diese neuartige Neufassung verbessert die Trainings- und Rendering-Effizienz. Die Flexibilität und Skalierbarkeit dieser Methode ermöglichen es diesem Artikel, mehrere GPUs effizient zu optimieren und mehrere GPUs für eine effiziente Leistungsoptimierung zu verwenden.
Unsere Arbeit steht im Gegensatz zu neueren Ansätzen, die GPU-Algorithmen zur Modellierung großräumiger Szenen durch das Training einer Reihe unabhängiger stereoskopischer NeRFs übernommen haben [9, 15, 17]. Obwohl diese Methoden keine Kommunikation zwischen GPUs erfordern, muss jeder NeRF den gesamten Raum, einschließlich Hintergrundbereiche, modellieren. Dies führt zu einer erhöhten Redundanz der Modellkapazität, wenn die Anzahl der GPUs zunimmt. Darüber hinaus erfordern diese Methoden das Mischen von NeRFs beim Rendern, was die visuelle Qualität beeinträchtigt und Artefakte in überlappenden Bereichen verursacht. Daher verwenden diese Methoden im Gegensatz zu NeRF-XL mehr Modellparameter im Training (entspricht mehr GPUs) und erzielen keine Verbesserungen der visuellen Qualität.
Dieses Papier demonstriert die Wirksamkeit unseres Ansatzes anhand verschiedener Erfassungsfälle, darunter Straßenscans, Drohnenüberflüge und objektzentrierte Videos. Die Fälle reichen von kleinen Szenen (10 Quadratmeter) bis hin zu ganzen Städten (25 Quadratkilometer). Unsere Experimente zeigen, dass NeRF-XL beginnt, eine verbesserte visuelle Qualität (gemessen durch PSNR) und eine verbesserte Rendering-Geschwindigkeit zu erreichen, wenn wir dem Optimierungsprozess mehr Rechenressourcen zuweisen. Daher ermöglicht NeRF-XL das Training von NeRF mit beliebiger Kapazität für Szenen jeder räumlichen Skala und jedes Detail.
Abbildung 1: Der prinzipielle verteilte Multi-GPU-Trainingsalgorithmus dieses Artikels kann NeRFs auf jeden großen Maßstab skalieren.
Abbildung 2: Unabhängiges Training und gemeinsames Training mit mehreren GPUs. Das unabhängige Training mehrerer NeRFs [9, 15, 18] erfordert, dass jeder NeRF sowohl die Fokusregion als auch seine Umgebung modelliert, was zu einer Redundanz der Modellkapazität führt. Im Gegensatz dazu verwendet unsere gemeinsame Trainingsmethode nicht überlappende NeRFs und weist daher keine Redundanz auf.
Abbildung 3: Unabhängiges Training erfordert eine Mischung, wenn neue Perspektiven synthetisiert werden. Unabhängig davon, ob die Überblendung in 2D [9, 15] oder 3D [18] durchgeführt wird, wird beim Rendern Unschärfe eingeführt.
Abbildung 4: Selbstständiges Training führt zu unterschiedlichen Kameraoptimierungen. In NeRF kann eine Kameraoptimierung erreicht werden, indem die ungenaue Kamera selbst oder alle anderen Kameras sowie die zugrunde liegende 3D-Szene transformiert werden. Daher kann das unabhängige Training mehrerer NeRFs zusammen mit der Kameraoptimierung zu Inkonsistenzen bei Kamerakorrekturen und Szenengeometrie führen, was das Hybrid-Rendering schwieriger macht.
Abbildung 5: Visuelle Artefakte, die durch 3D-Überblendung verursacht werden können. Das Bild links zeigt die Ergebnisse des MegaNeRF-Trainings mit 2 GPUs. Bei einer Überlappung von 0 % treten aufgrund des unabhängigen Trainings Artefakte an den Grenzen auf, während bei einer Überlappung von 15 % aufgrund der 3D-Überblendung schwerwiegende Artefakte auftreten. Das Bild rechts veranschaulicht die Ursache dieses Artefakts: Während jedes unabhängig trainierte NeRF die richtige Farbe wiedergibt, garantiert das gemischte NeRF keine korrekte Farbwiedergabe.
Abbildung 6: Der Trainingsprozess dieses Artikels. Unsere Methode trainiert gemeinsam mehrere NeRFs auf allen GPUs, wobei jeder NeRF einen disjunkten räumlichen Bereich abdeckt. Die Kommunikation zwischen GPUs erfolgt nur im Vorwärtsdurchlauf und nicht im Rückwärtsdurchlauf (wie durch den grauen Pfeil angezeigt). (a) Dieses Papier kann implementiert werden, indem jedes NeRF ausgewertet wird, um Beispielfarbe und -dichte zu erhalten, und diese Werte dann für das globale Volumenrendering an alle anderen GPUs gesendet werden (siehe Abschnitt 4.2). (b) Durch Umschreiben der Volumenwiedergabegleichung kann dieser Artikel die Menge der Datenübertragung deutlich auf einen Wert pro Strahl reduzieren und so die Effizienz verbessern (siehe Abschnitt 4.3).
Experimentelle Ergebnisse:
Abbildung 7: Qualitativer Vergleich. Im Vergleich zu früheren Arbeiten nutzt unsere Methode Multi-GPU-Konfigurationen effektiv und verbessert die Leistung bei allen Datentypen.
Abbildung 8: Quantitativer Vergleich. Frühere Arbeiten, die auf unabhängigem Training basierten, konnten durch das Hinzufügen zusätzlicher GPUs keine Leistungsverbesserungen erzielen, während unsere Methode mit zunehmenden Trainingsressourcen Verbesserungen bei der Rendering-Qualität und -Geschwindigkeit verzeichnet.
Abbildung 9: Skalierbarkeit der Methode in diesem Artikel. Mehr GPUs ermöglichen mehr lernbare Parameter, was zu einer größeren Modellkapazität und besserer Qualität führt.
Abbildung 10: Mehr Rendering-Ergebnisse bei großflächiger Erfassung. In diesem Artikel wird die Robustheit unserer Methode anhand eines größeren erfassten Datensatzes mit mehr GPUs getestet. Eine Videotour durch diese Daten finden Sie auf der Webseite dieses Artikels.
Abbildung 11: Vergleich mit PyTorch DDP im University4-Datensatz. PyTorch Distributed Data Parallel (DDP) soll das Rendern beschleunigen, indem es Licht über die GPU verteilt. Im Gegensatz dazu verteilt unsere Methode Parameter auf GPUs, wodurch die Speicherbeschränkungen einer einzelnen GPU im Cluster durchbrochen werden und die Modellkapazität für eine bessere Qualität erweitert werden kann.
Abbildung 12: Synchronisierungskosten auf University4. Unser partitionsbasiertes Volumenrendering (siehe Abschnitt 4.3) ermöglicht eine kachelbasierte Kommunikation, die deutlich kostengünstiger ist als die ursprüngliche beispielbasierte Kommunikation (siehe Abschnitt 4.2) und daher ein schnelleres Rendering ermöglicht.
Zusammenfassung:
Zusammenfassend untersucht dieser Artikel bestehende Methoden zur Zerlegung großräumiger Szenen in unabhängig trainierte NeRFs (Neural Radiation Fields) und entdeckt erhebliche Hindernisse, die die effektive Nutzung zusätzlicher Rechenressourcen (GPUs) behindern. Dies widerspricht dem Kernziel, Multi-GPU-Setups zu nutzen, um die NeRF-Leistung im großen Maßstab zu verbessern. Daher stellt dieses Dokument NeRF-XL vor, einen prinzipiellen Algorithmus, der in der Lage ist, Multi-GPU-Setups effizient zu nutzen und die NeRF-Leistung in jeder Größenordnung durch gemeinsames Training mehrerer nicht überlappender NeRFs zu verbessern. Wichtig ist, dass unsere Methode nicht auf heuristischen Regeln beruht, den Skalierungsgesetzen von NeRF in einer Multi-GPU-Umgebung folgt und auf verschiedene Datentypen anwendbar ist.
Zitat:
@misc{li2024nerfxl,title={NeRF-XL: Scaling NeRFs with Multiple GPUs}, author={Ruilong Li and Sanja Fidler and Angjoo Kanazawa and Francis Williams},year={2024},eprint={2404.16221},archivePrefix={arXiv},primaryClass={cs.CV}}
Das obige ist der detaillierte Inhalt vonDie größte Rekonstruktion der Geschichte von 25 km²! NeRF-XL: Wirklich effektiver Einsatz von Multi-Card-Joint-Training!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Laut einem neuen Bericht der Apollo Research stellt die nicht kontrollierte interne Bereitstellung fortschrittlicher KI -Systeme erhebliche Risiken dar. Dieser mangelnde Aufsicht, der bei großen KI -Unternehmen weit verbreitet ist

Traditionelle Lügendetektoren sind veraltet. Wenn man sich auf den vom Armband verbundenen Zeiger stützt, ist ein Lügendetektor, der die lebenswichtigen Anzeichen und physikalischen Reaktionen des Probanden ausdruckt, bei der Identifizierung von Lügen nicht genau. Aus diesem Grund werden die Erkennungsergebnisse normalerweise nicht vom Gericht verabschiedet, obwohl es dazu geführt hat, dass viele unschuldige Menschen inhaftiert wurden. Im Gegensatz dazu ist künstliche Intelligenz eine leistungsstarke Datenmotor, und ihr Arbeitsprinzip besteht darin, alle Aspekte zu beobachten. Dies bedeutet, dass Wissenschaftler künstliche Intelligenz auf Anwendungen anwenden können, die auf verschiedene Weise Wahrheit suchen. Ein Ansatz besteht darin, die Vitalzeichenreaktionen der Person zu analysieren, die wie ein Lügendetektor befragt wird, jedoch mit einer detaillierteren und präziseren vergleichenden Analyse. Ein anderer Ansatz ist die Verwendung von Sprachmarkup, um zu analysieren, was Menschen tatsächlich sagen und Logik und Argumentation verwenden. Wie das Sprichwort sagt, züchtet eine Lüge eine andere Lüge und schließlich

Die Luft- und Raumfahrtindustrie, ein Pionier der Innovation, nutzt KI, um ihre komplizierten Herausforderungen zu bewältigen. Die zunehmende Komplexität der Modern Aviation erfordert die Automatisierung und Echtzeit-Intelligenzfunktionen von KI für verbesserte Sicherheit, reduzierter Oper

Die schnelle Entwicklung der Robotik hat uns eine faszinierende Fallstudie gebracht. Der N2 -Roboter von Noetix wiegt über 40 Pfund und ist 3 Fuß groß und soll in der Lage sein, sich zurückzufassen. Der G1 -Roboter von Unitree wiegt etwa doppelt so groß wie der N2 und ist etwa 4 Fuß hoch. Es gibt auch viele kleinere humanoide Roboter, die am Wettbewerb teilnehmen, und es gibt sogar einen Roboter, der von einem Fan vorangetrieben wird. Dateninterpretation Der Halbmarathon zog mehr als 12.000 Zuschauer an, aber nur 21 humanoide Roboter nahmen teil. Obwohl die Regierung darauf hinwies, dass die teilnehmenden Roboter vor dem Wettbewerb eine "intensive Ausbildung" durchführten, haben nicht alle Roboter den gesamten Wettbewerb abgeschlossen. Champion - Tiangong ult entwickelt vom Peking Humanoiden Roboter Innovation Center

Künstliche Intelligenz in ihrer aktuellen Form ist nicht wirklich intelligent. Es ist geschickt darin, vorhandene Daten nachzuahmen und zu verfeinern. Wir schaffen keine künstliche Intelligenz, sondern künstliche Schluss

In einem Bericht wurde festgestellt, dass eine aktualisierte Schnittstelle im Code für Google Photos Android Version 7.26 versteckt wurde. Bei jedem Anzeigen eines Fotos werden am unteren Bildschirmrand eine Reihe neu erkannter Vorschaubildesansichten angezeigt. In den neuen Miniaturansichten des Gesichts fehlen Namensschilds. Ich vermute daher, dass Sie einzeln auf sie klicken müssen, um weitere Informationen zu jeder erkannten Person anzuzeigen. Im Moment bietet diese Funktion keine anderen Informationen als diejenigen, die Google Photos in Ihren Bildern gefunden haben. Diese Funktion ist noch nicht verfügbar, daher wissen wir nicht, wie Google sie genau verwendet. Google kann Miniaturansichten verwenden, um mehr Fotos von ausgewählten Personen zu finden, oder kann für andere Zwecke verwendet werden, z. B. für die Bearbeitung der Person. Lassen Sie uns warten und sehen. Wie vorerst

Die Verstärkungsfonetuning hat die KI -Entwicklung erschüttert, indem sie Modelle unterrichten, um sich auf der Grundlage des menschlichen Feedbacks anzupassen. Es mischt beaufsichtigte Lernfundamente mit belohnungsbasierten Updates, um sie sicherer, genauerer und wirklich hilfreicher zu machen

Wissenschaftler haben ausführlich menschliche und einfachere neuronale Netzwerke (wie die in C. elegans) untersucht, um ihre Funktionalität zu verstehen. Es stellt sich jedoch eine entscheidende Frage: Wie passen wir unsere eigenen neuronalen Netze an, um neben neuartigen Ai S effektiv zu arbeiten


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Dreamweaver Mac
Visuelle Webentwicklungstools

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.
