Heim > Artikel > Technologie-Peripheriegeräte > Kontrollvorhersage für die Trajektorienführung beim durchgängigen autonomen Fahren: eine einfache und leistungsstarke Basismethode TCP
arXiv-Artikel „Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple but Strong Baseline“, Juni 2022, Shanghai AI Laboratory und Shanghai Jiao Tong University.
Aktuelle End-to-End-Methoden für autonomes Fahren steuern entweder Steuerungen auf der Grundlage geplanter Trajektorien oder führen direkt Steuerungsvorhersagen durch, was zwei Forschungsbereiche umfasst. Angesichts der potenziellen gegenseitigen Vorteile zwischen beiden untersucht dieser Artikel aktiv die Kombination der beiden, genannt TCP (Trajectory-guided Control Prediction). Insbesondere verfügt die Ensemble-Methode über zwei Zweige, nämlich für die Flugbahnplanung und die direkte Steuerung. Der Trajektorienzweig sagt zukünftige Trajektorien voraus, während der Kontrollzweig ein neues mehrstufiges Vorhersageschema umfasst, das Überlegungen zur Beziehung zwischen aktuellen Aktionen und zukünftigen Zuständen anstellt. Die beiden Zweige sind so verbunden, dass der Steuerzweig in jedem Zeitschritt eine entsprechende Führung vom Trajektorienzweig erhält. Die Ergebnisse der beiden Zweige werden dann zusammengeführt, um komplementäre Vorteile zu erzielen.
Bewerten Sie den Einsatz des Carla-Simulators in einer städtischen Fahrumgebung mit geschlossenem Kreislauf und herausfordernden Szenarien. Selbst mit monokularer Kameraeingabe belegt diese Methode den ersten Platz im offiziellen CARLA-Ranking. Quellcode und Daten werden Open Source sein: https://github.com/OpenPerceptionX/TCP
Select Roach („End-to-End-Stadtfahren durch Nachahmung eines Reinforcement-Learning-Coaches ". ICCV, 2021) als Experten. Roach ist ein einfaches, von RL trainiertes Modell mit privilegierten Informationen wie Straßen, Fahrspuren, Routen, Fahrzeugen, Fußgängern, Ampeln und Bahnhöfen, die alle als 2D-BEV-Bilder gerendert werden. Im Vergleich zu handgefertigten Experten können solche lernbasierten Experten neben direkten Überwachungssignalen mehr Informationen vermitteln. Konkret kommt es zu einem Merkmalsverlust, der dazu führt, dass die latenten Merkmale vor dem endgültigen Ausgabekopf des Studentenmodells denen der Experten ähneln. Als Hilfsaufgabe für das Studentenmodell wird auch ein Wertverlust hinzugefügt, um erwartete Renditen vorherzusagen.
Wie in der Abbildung gezeigt, besteht die gesamte Architektur aus einer Eingabecodierungsstufe und zwei nachfolgenden Zweigen: Das Eingabebild i wird durch einen CNN-basierten Bildcodierer wie ResNet geleitet, um eine Feature-Map F zu generieren. Gleichzeitig werden die Navigationsinformationen g mit der aktuellen Geschwindigkeit v verkettet, um die Messeingabe m zu bilden, und dann nimmt der MLP-basierte Messencoder m als seine Eingabe und gibt das Messmerkmal jm aus. Die Codierungsfunktionen werden dann von beiden Zweigen für nachfolgende Flugbahn- und Kontrollvorhersagen gemeinsam genutzt. Konkret handelt es sich beim Kontrollzweig um einen neuen mehrstufigen Vorhersageentwurf mit Anleitung vom Trajektorienzweig. Abschließend wird ein szenariobasiertes Fusionsschema angewendet, um das Beste aus beiden Ausgabeparadigmen zu kombinieren.
Wie in der Abbildung gezeigt, sucht TCP die Hilfe des Trajektorienplanungszweigs, indem es die Aufmerksamkeitskarte lernt, um wichtige Informationen aus der codierten Feature-Map zu extrahieren. Die Interaktion zwischen den beiden Zweigen (Trajektorie und Kontrolle) verbessert die Konsistenz dieser beiden eng verwandten Ausgabeparadigmen und vertieft den Geist des Multitask-Lernens (MTL). Insbesondere wird der Bildkodierer F verwendet, um die 2D-Merkmalskarte im Zeitschritt t zu extrahieren, und die entsprechenden verborgenen Zustände aus dem Kontrollzweig und dem Trajektorienzweig werden verwendet, um die Aufmerksamkeitskarte zu berechnen.
Die Informationsdarstellungsfunktionen werden in den Richtlinienheader eingegeben, der von allen Zeit-t-Schritten gemeinsam genutzt wird, um die entsprechenden Kontrollaktionen vorherzusagen. Beachten Sie, dass im ersten Schritt nur gemessene Merkmale zur Berechnung der anfänglichen Aufmerksamkeitskarte verwendet werden und die Aufmerksamkeitsbildmerkmale mit den gemessenen Merkmalen kombiniert werden, um einen anfänglichen Merkmalsvektor zu bilden. Um sicherzustellen, dass die Merkmale tatsächlich den Zustand dieses Schritts beschreiben und wichtige Informationen zur Steuerung von Vorhersagen enthalten, wird bei jedem Schritt ein Merkmalsverlust hinzugefügt, sodass die anfänglichen Merkmalsvektoren auch nahe an den Merkmalen des Experten liegen.
TCP-Framework verfügt über zwei Formen der Ausgabedarstellung: Planungsbahn und prädiktive Kontrolle. Zur weiteren Kombination wird eine szenariobasierte Fusionsstrategie entworfen, wie im Pseudocode von Algorithmus 1 dargestellt.
Insbesondere wird α als kombiniertes Gewicht mit einem Wert zwischen 0 und 0,5 dargestellt. In einigen Fällen ist eine Darstellung besser geeignet, indem die Flugbahn und die Kontrollvorhersagen kombiniert werden , und das passendere nimmt mehr Gewicht ein (1 − α). Beachten Sie, dass das Kombinationsgewicht α nicht konstant oder symmetrisch sein muss, was bedeutet, dass es in verschiedenen Situationen oder für bestimmte Steuersignale auf unterschiedliche Werte eingestellt werden kann. In den Experimenten wurden Szenen basierend darauf ausgewählt, ob das eigene Fahrzeug eine Kurve machte. Das heißt, wenn es eine Kurve machte, war die Szene steuerungsspezifisch, andernfalls war sie bahnspezifisch.
Die experimentellen Ergebnisse sind wie folgt:
Das obige ist der detaillierte Inhalt vonKontrollvorhersage für die Trajektorienführung beim durchgängigen autonomen Fahren: eine einfache und leistungsstarke Basismethode TCP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!