Heim > Artikel > Technologie-Peripheriegeräte > „Es ist schwer, zwischen wahr und falsch zu unterscheiden“! Clevere Nutzung der von NeRF generierten autonomen Fahrsimulationsdaten
Neural Radiation Field (NeRF) ist zu einem Werkzeug geworden, das den Auftakt für die Forschung zum autonomen Fahren (AD) vorantreibt und skalierbare Closed-Loop-Simulations- und Datenverbesserungsfunktionen bietet. Um jedoch den Ergebnissen der Simulation vertrauen zu können, muss sichergestellt werden, dass das AD-System die realen Daten und die gerenderten Daten auf die gleiche Weise wahrnimmt. Obwohl sich die Leistung der Rendering-Methoden verbessert, ist es immer noch schwierig, viele Szenen originalgetreu zu rekonstruieren. Zu diesem Zweck schlagen wir eine neue Perspektive vor, um die Lücke zwischen realen und simulierten Daten zu schließen. Wir konzentrieren uns nicht nur auf die Verbesserung der Wiedergabetreue, sondern erforschen auch einfache, aber effektive Methoden, um die Robustheit von Wahrnehmungsmodellen gegenüber NeRF-Artefakten zu verbessern, ohne die Leistung realer Daten zu beeinträchtigen. Darüber hinaus führen wir die erste groß angelegte Untersuchung der Lücke zwischen realen und simulierten Daten in AD-Umgebungen durch, wobei wir modernste neuronale Rendering-Techniken verwenden. Konkret evaluiert unsere Studie Objektdetektoren und Online-Mapping-Modelle anhand realer und simulierter Daten und untersucht die Auswirkungen verschiedener Pre-Training-Strategien. Unsere Ergebnisse zeigen eine deutlich verbesserte Modellgenauigkeit bei simulierten Daten und in einigen Fällen sogar eine Verbesserung der realen Leistung. Abschließend befassen wir uns mit den realen und simulierten Ähnlichkeiten und identifizieren FID und LPIPS als starke Indikatoren.
In diesem Artikel schlagen wir eine neue Perspektive vor, um die Lücke zwischen intelligenten Fahrsystemen und Wahrnehmungsmodulen zu schließen. Unser Ziel besteht nicht darin, die Rendering-Qualität zu verbessern, sondern das Wahrnehmungsmodell robuster gegenüber NeRF-Artefakten zu machen, ohne die Leistung bei realen Daten zu beeinträchtigen. Wir glauben, dass diese Richtung die Verbesserung der NeRF-Leistung ergänzt und der Schlüssel zur Ermöglichung virtueller AV-Tests ist. Als ersten Schritt in diese Richtung zeigen wir, dass selbst einfache Techniken zur Datenerweiterung einen starken Einfluss auf die Robustheit des Modells gegenüber NeRF-Artefakten haben können.
Wir führen die erste umfassende real2sim+Gap-Studie an einem großen AD-Datensatz durch und bewerten die Leistung mehrerer Objektdetektoren sowie Online-Mapping-Modelle anhand realer Daten und Daten modernster neuronaler Rendering-Methoden (SOTA). . Unsere Studie umfasst die Auswirkungen verschiedener Datenerweiterungstechniken während des Trainings und die Genauigkeit der NeRF-Wiedergabe während der Inferenz. Wir haben festgestellt, dass diese Daten während der Feinabstimmung des Modells die Auswirkungen der Erweiterungstechnik und die Wiedergabetreue von NeRF zeigten und in einigen Fällen sogar die Leistung bei realen Daten verbesserten. Abschließend untersuchen wir die Korrelation zwischen impliziten und allgemeinen Bildrekonstruktionsmetriken in real2sim und gewinnen Einblicke in die Bedeutung der Verwendung von NeRFs für CAD-Datensimulatoren. Wir stellen fest, dass LPIPS und FID aussagekräftige Indikatoren für die real2sim-Disparität sind, und bestätigen weiterhin, dass unsere vorgeschlagene Verbesserung die Empfindlichkeit kontrastarmer visueller Kompositionen verringert.
Um die AD-Fähigkeiten der NeRF-gesteuerten Simulations-Engine zu testen und zu validieren, können sie die gesammelten Daten nutzen, um neue virtuelle Szenarien zu erkunden. Damit die Ergebnisse solcher Modelle jedoch vertrauenswürdig sind, muss sich das AD-System bei der Verarbeitung der Daten und der tatsächlichen Daten gleich verhalten. In dieser Arbeit schlagen wir einen alternativen und ergänzenden Ansatz zur Anpassung von AD-Systemen vor, um sie weniger empfindlich gegenüber Unterschieden zwischen realen und simulierten Daten zu machen. Auf diese Weise können wir das AD-System so einstellen, dass es weniger empfindlich auf Unterschiede zwischen realen und simulierten Daten reagiert und so besser mit Unterschieden zwischen realen und simulierten Daten umgehen kann.
Als ersten Schritt bei der Untersuchung, wie Feinabstimmungsstrategien Wahrnehmungsmodelle robuster gegenüber Artefakten in gerenderten Daten machen können, verwendeten wir verschiedene Feinabstimmungsstrategien. Konkret optimieren wir anhand eines bereits trainierten Modells das Wahrnehmungsmodell mithilfe von Bildern, die sich auf die Verbesserung der Leistung gerenderter Bilder bei gleichzeitiger Beibehaltung der Leistung bei realen Daten konzentrieren (siehe Abbildung 2). Neben der Verringerung der real2SIM-Lücke kann dies auch die Anforderungen an den Sensorrealismus verringern, den Weg für eine breitere Anwendung neuronaler Rendering-Methoden ebnen und den Rechenaufwand für das Training und die Bewertung von Beschreibungsmethoden verringern. Beachten Sie, dass wir uns zwar auf Wahrnehmungsmodelle konzentrieren, unser Ansatz jedoch problemlos auch auf End-to-End-Modelle ausgeweitet werden kann.
Schließlich können wir uns mehrere Wege vorstellen, um das Ziel zu erreichen, Modelle robuster zu machen, beispielsweise indem wir uns von der Domänenanpassungs- und Multitasking-Lernliteratur inspirieren lassen. Für die Feinabstimmung sind jedoch nur minimale modellspezifische Anpassungen erforderlich, sodass wir eine Reihe von Modellen problemlos untersuchen können.
Bildvergrößerung ist eine häufig verwendete Methode, und die klassische Strategie zur Verbesserung der Robustheit gegenüber Artefakten ist die Verwendung von Bildvergrößerung. Hier wählen wir Verbesserungen aus, um die verschiedenen im gerenderten Bild vorhandenen Verzerrungen darzustellen. Genauer gesagt fügen wir zufälliges Gaußsches Rauschen hinzu und falten das Bild mit einem Gaußschen Unschärfekern, wobei wir eine photometrische Verzerrung anwenden, die der in SimCLR vorkommt. Abschließend wird das Bild herunter- und hochgesampelt. Erweiterungen werden nacheinander angewendet, und jede Erweiterung hat eine bestimmte Wahrscheinlichkeit.
NeRF ist ein Deep-Learning-Modell zum Rendern von 3D-Szenen. Bei der Feinabstimmung kann sich das Modell an eine andere natürliche Form anpassen, d. h. diese Daten bei der Feinabstimmung einbeziehen. Dies erleichtert die Möglichkeit, NeRF-Modelle zu trainieren, sodass NeRF-Methoden auf demselben Datensatz wie das überwachungsbewusste Modell trainiert werden können. Allerdings kann das Training von NeRF für große Datensätze kostspielig sein, und einige davon erfordern möglicherweise Beschriftungen für Aufgaben wie 3D-Objekterkennung, semantische Segmentierung oder Beschriftungen mehrerer Kategorien. Darüber hinaus erhöht NeRF von AD häufig die Anforderungen an die Reihenfolge der Daten. Um sich an diese Anforderungen anzupassen, erfordern Etiketten möglicherweise eine speziellere Verarbeitung, z. B. 3D-Objekterkennung, semantische Segmentierung oder Etiketten mehrerer Kategorien usw.
Als nächstes teilen wir die Bilder der ausgewählten Sequenz in einen NeRF-Trainingssatz und einen Holdout-Satz auf. Die Feinabstimmung der Wahrnehmungsmodelle erfolgt an ihrem gesamten Trainingsdatensatz D, und für Bilder mit Rendering-Korrespondenzen in D verwenden wir das gerenderte Bild mit der Wahrscheinlichkeit p. Dies bedeutet, dass die zur Feinabstimmung verwendeten Bilder vom NeRF-Modell nicht gesehen werden.
Wie bereits erwähnt, ist das Rendern von NeRF-Daten eine teure Datenerweiterungstechnik. Darüber hinaus sind neben den für die Wahrnehmungsaufgabe erforderlichen Daten auch sequentielle Daten und möglicherweise zusätzliche Marker erforderlich. Das heißt, für einen skalierbaren Ansatz wünschen wir uns idealerweise eine effiziente Strategie, um NeRF-Daten für ein einzelnes Bild zu erhalten. Zu diesem Zweck schlagen wir vor, einen Bild-zu-Bild-Ansatz zu verwenden, um zu lernen, NeRF-ähnliche Bilder zu erzeugen. Bei einem gegebenen realen Bild wandelt das Modell das Bild in die NeRF-Domäne um und führt so effektiv für NeRF typische Artefakte ein. Dies ermöglicht es uns, die Anzahl der NeRF-ähnlichen Bilder während der Feinabstimmung bei begrenztem Rechenaufwand deutlich zu erhöhen. Wir trainieren das Bild-zu-Bild-Modell mithilfe der gerenderten Bilder von Dnerf und der entsprechenden realen Bilder. Visuelle Beispiele für verschiedene Verbesserungsstrategien sind in Abbildung 3 dargestellt.
Neural Radiation Field (NeRF) ist zu einem Teil der Simulation autonomen Fahrens (AD) geworden. Daten ein vielversprechender Ansatz. Aus praktischen Gründen ist es jedoch notwendig zu verstehen, wie die vom AD-System an simulierten Daten durchgeführten Aktionen auf reale Daten übertragen werden. Unsere groß angelegte Untersuchung zeigt eine Leistungslücke zwischen Wahrnehmungsmodellen, die simulierten und realen Bildern ausgesetzt sind.
Im Gegensatz zu früheren Ansätzen, die sich auf die Verbesserung der Rendering-Qualität konzentrierten, untersucht dieser Artikel, wie das Wahrnehmungsmodell geändert werden kann, um es robuster gegenüber NeRF-Simulationsdaten zu machen. Wir zeigen, dass die Feinabstimmung mit NeRF- oder NeRF-ähnlichen Daten die real2sim-Lücke bei Objekterkennungs- und Online-Mapping-Methoden erheblich verringert, ohne die Leistung bei realen Daten zu beeinträchtigen. Darüber hinaus zeigen wir, dass die Erstellung neuer Szenarien außerhalb bestehender Zugverteilungen, wie z. B. die Simulation von Spurverlassen, die Leistung anhand realer Daten verbessern kann. Eine Studie häufig verwendeter Bildmetriken innerhalb der NeRF-Community zeigt, dass LPIPS- und FID-Scores die stärkste Korrelation mit der Wahrnehmungsleistung aufweisen. Dies legt nahe, dass Wahrnehmungsähnlichkeit für Wahrnehmungsmodelle eine größere Bedeutung hat als bloße Rekonstruktionsqualität.
Zusammenfassend glauben wir, dass die NeRF-Simulationsdaten für AD wertvoll sind, insbesondere wenn wir unsere vorgeschlagene Methode verwenden, um die Robustheit des Wahrnehmungsmodells zu verbessern. Darüber hinaus helfen NeRF-Daten nicht nur beim Testen von AD-Systemen anhand simulierter Daten, sondern tragen auch dazu bei, die Leistung von Wahrnehmungsmodellen anhand realer Daten zu verbessern.
Das obige ist der detaillierte Inhalt von„Es ist schwer, zwischen wahr und falsch zu unterscheiden“! Clevere Nutzung der von NeRF generierten autonomen Fahrsimulationsdaten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!