Heim >Technologie-Peripheriegeräte >KI >ST-P3: Durchgängige räumlich-zeitliche Feature-Learning-Vision-Methode für autonomes Fahren
arXiv-Artikel „ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning“, 22. Juli, Autor von der Shanghai Jiao Tong University, dem Shanghai AI Laboratory, der University of California San Diego und Peking-Forschung von JD .com Krankenhaus.
Schlagen Sie ein Lernschema für räumlich-zeitliche Merkmale vor, das gleichzeitig eine Reihe repräsentativerer Merkmale für Wahrnehmungs-, Vorhersage- und Planungsaufgaben bereitstellen kann, genannt ST-P3. Insbesondere wird eine egozentrisch ausgerichtete Akkumulationstechnik vorgeschlagen, um die geometrischen Informationen im 3D-Raum zu speichern, bevor die BEV-Konvertierung erfasst wird, um vergangene Bewegungsänderungen für zukünftige Vorhersagen zu berücksichtigen Eine Verfeinerungseinheit wird eingeführt, um die geplante visuelle Elementerkennung zu kompensieren. Quellcode, Modell- und Protokolldetails Open Source https://github.com/OpenPercepti onX/ST-P3 .
Wegweisende LSS-Methode zum Extrahieren perspektivischer Merkmale aus Multi-View-Kameras über Tiefe. Es ist voraussichtlich auf 3D aufgerüstet und in den BEV-Raum integriert werden. Merkmalskonvertierung zwischen zwei Ansichten, deren latente Tiefenvorhersage entscheidend ist.
Das Upgrade zweidimensionaler Ebeneninformationen auf drei Dimensionen erfordert zusätzliche Dimensionen, dh die Tiefe, die für dreidimensionale geometrische autonome Fahraufgaben geeignet ist. Um die Feature-Darstellung weiter zu verbessern, ist es selbstverständlich, zeitliche Informationen in das Framework einzubeziehen, da die meisten Szenen mit Videoquellen beauftragt sind.
Wie in der Abbildung beschriebenST-P3Gesamtrahmen: Geben Sie insbesondere anhand einer Reihe umgebender Kameravideos diese in das Backbone ein, um vorläufige Vorderansichtsfunktionen zu generieren. Führt eine zusätzliche Tiefenschätzung durch, um 2D-Features in 3D-Raum umzuwandeln. Das selbstzentrierte Ausrichtungsakkumulationsschema richtet zunächst vergangene Features am aktuellen Ansichtskoordinatensystem aus. Aktuelle und vergangene Features werden dann im dreidimensionalen Raum aggregiert, wobei die geometrischen Informationen vor der Konvertierung in die BEV-Darstellung erhalten bleiben. Zusätzlich zum häufig verwendeten Zeitbereichsmodell „Vorhersage“ wird die Leistung durch die Konstruktion eines zweiten Pfads zur Erklärung vergangener Bewegungsänderungen weiter verbessert. Diese Dual-Path-Modellierung gewährleistet eine stärkere Merkmalsdarstellung, um auf zukünftige semantische Ergebnisse zu schließen. Um das ultimative Ziel der Trajektorienplanung zu erreichen, werden die frühen Feature-Vorkenntnisse des Netzwerks integriert. Ein Verfeinerungsmodul wurde entwickelt, um die endgültige Flugbahn mithilfe von Befehlen auf hoher Ebene zu generieren, wenn keine HD-Karten vorhanden sind.
Wie im Bild gezeigt, handelt es sich um die egozentrische Ausrichtungsakkumulationsmethode der Wahrnehmung
. (a) Nutzen Sie die Tiefenschätzung, um die Features am aktuellen Zeitstempel auf 3D zu heben und nach der Ausrichtung in BEV-Features zusammenzuführen. (b-c) Richten Sie die 3D-Features des vorherigen Frames an der aktuellen Frame-Ansicht aus und verschmelzen Sie dadurch mit allen vergangenen und aktuellen Zuständen Verbesserung der Merkmalsdarstellung.
Wie in der Abbildung gezeigt, handelt es sich um ein Zwei-Wege-Modell für Vorhersage
: (i) der latente Code ist die Verteilung aus der Feature-Map; (ii iii) Art und Weise a kombiniert die Unsicherheitsverteilung und gibt den zukünftigen Multi an -Modalität, und Pfad B lernt aus vergangenen Änderungen, was dabei hilft, die Informationen von Pfad A zu kompensieren.
Als ultimatives Ziel müssen Sie eine sichere und bequeme Flugbahn planen, um den Zielpunkt zu erreichen. Dieser Bewegungsplaner tastet eine Reihe verschiedener Trajektorien ab und wählt eine aus, die die erlernte Kostenfunktion minimiert. Die Integration von Informationen von Zielpunkten und Ampeln über ein Zeitbereichsmodell bringt jedoch zusätzliche Optimierungsschritte mit sich.
Wie in der Abbildung dargestellt, erfolgt die Integration und Verfeinerung von Vorwissen für diePlanung
: Das Gesamtkostendiagramm umfasst zwei Teilkosten. Flugbahnen mit minimalen Kosten werden mithilfe zukunftsweisender Funktionen zur Aggregation visionsbasierter Informationen aus Kameraeingaben weiter neu definiert.
Trajektorien mit großer Querbeschleunigung, Ruck oder Krümmung bestrafen. Hoffentlich wird dieser Weg sein Ziel effizient erreichen, so dass Fortschritte belohnt werden. Die oben genannten Kostenpositionen enthalten jedoch keine Zielinformationen, die normalerweise von Routenkarten bereitgestellt werden. Verwenden Sie übergeordnete Befehle, einschließlich Vorwärts, Linksabbiegen und Rechtsabbiegen, und bewerten Sie Flugbahnen nur anhand der entsprechenden Befehle.
Darüber hinaus sind Ampeln für SDV von entscheidender Bedeutung, um die Trajektorien durch das GRU-Netzwerk zu optimieren. Der verborgene Zustand wird mit den Frontkamerafunktionen des Encodermoduls initialisiert und jeder Abtastpunkt des Kostenterms wird als Eingabe verwendet. Die experimentellen Ergebnisse sind wie folgt: # 🎜 🎜#Das obige ist der detaillierte Inhalt vonST-P3: Durchgängige räumlich-zeitliche Feature-Learning-Vision-Methode für autonomes Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!