Heim >Technologie-Peripheriegeräte >KI >SIMPL: Ein einfacher und effizienter Multi-Agent-Benchmark zur Bewegungsvorhersage für autonomes Fahren
Originaltitel: SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving
Papierlink: https://arxiv.org/pdf/2402.02519.pdf
Codelink: https://github.com /HKUST-Aerial-Robotics/SIMPL
Autorenzugehörigkeit: Hong Kong University of Science and Technology DJI
Dieses Papier schlägt eine einfache und effiziente Bewegungsvorhersagebasislinie (SIMPL) für autonome Fahrzeuge vor. Im Gegensatz zu herkömmlichen agentenzentrierten Methoden (die eine hohe Genauigkeit aufweisen, aber wiederholte Berechnungen erfordern) und szenenzentrierten Methoden (bei denen Genauigkeit und Allgemeingültigkeit leiden) kann SIMPL eine umfassende Lösung für alle relevanten Verkehrsteilnehmer bereitstellen und genaue Bewegungsvorhersagen in Echtzeit liefern. Um die Genauigkeit und Inferenzgeschwindigkeit zu verbessern, schlägt dieser Artikel ein kompaktes und effizientes globales Feature-Fusion-Modul vor, das die gerichtete Nachrichtenübermittlung auf symmetrische Weise durchführt und es dem Netzwerk ermöglicht, die zukünftige Bewegung aller Verkehrsteilnehmer in einem einzigen Feedforward-Durchgang vorherzusagen und die Genauigkeit zu verringern Verlust durch Blickwinkelverschiebung. Darüber hinaus untersucht dieser Artikel die Verwendung von Bernstein-Basispolynomen für die kontinuierliche Trajektorienparametrisierung bei der Trajektoriendekodierung, was die Auswertung von Zuständen und ihren Ableitungen höherer Ordnung zu jedem gewünschten Zeitpunkt ermöglicht, was für nachgelagerte Planungsaufgaben wertvoll ist. Als starke Basis zeigt SIMPL im Vergleich zu anderen hochmodernen Methoden eine äußerst wettbewerbsfähige Leistung bei den Bewegungsvorhersage-Benchmarks Argoverse 1 und 2. Darüber hinaus machen sein leichtes Design und die geringe Inferenzlatenz SIMPL hoch skalierbar und vielversprechend für reale Einsätze in der Luft.
Die Vorhersage der Bewegungen umliegender Verkehrsteilnehmer ist für autonome Fahrzeuge von entscheidender Bedeutung, insbesondere in nachgelagerten Entscheidungs- und Planungsmodulen. Eine genaue Vorhersage von Absichten und Flugbahnen verbessert die Sicherheit und den Fahrkomfort.
Für die lernbasierte Bewegungsvorhersage ist eines der wichtigsten Themen die Kontextdarstellung. Frühe Methoden stellten die umgebende Szene normalerweise als Mehrkanalbild aus der Vogelperspektive dar [1]–[4]. Im Gegensatz dazu verwendet die neuere Forschung zunehmend die vektorisierte Szenendarstellung [5]–[13], bei der Orte und Geometrien mithilfe von Punktsätzen oder Polylinien mit geografischen Koordinaten annotiert werden, wodurch die Wiedergabetreue verbessert und das Empfangsfeld erweitert wird. Sowohl für gerasterte als auch für vektorisierte Darstellungen stellt sich jedoch eine zentrale Frage: Wie sollten wir den geeigneten Referenzrahmen für all diese Elemente auswählen? Ein einfacher Ansatz besteht darin, alle Instanzen innerhalb eines gemeinsamen Koordinatensystems (zentriert auf die Szene) zu beschreiben, beispielsweise eines, das auf einem autonomen Fahrzeug zentriert ist, und die Koordinaten direkt als Eingabemerkmale zu verwenden. Dies ermöglicht es uns, Vorhersagen für mehrere Zielagenten in einem einzigen Feedforward-Durchgang zu treffen [8, 14]. Unter Verwendung globaler Koordinaten als Eingabe werden jedoch typischerweise Vorhersagen für mehrere Zielagenten in einem einzigen Feedforward-Durchlauf getroffen [8, 14]. Die Verwendung globaler Koordinaten als Eingabe (die oft über einen weiten Bereich variieren) wird jedoch die inhärente Komplexität der Aufgabe erheblich verschärfen, was zu einer verminderten Netzwerkleistung und einer eingeschränkten Anpassungsfähigkeit an neue Szenarien führt. Um die Genauigkeit und Robustheit zu verbessern, besteht eine gängige Lösung darin, den Szenenkontext entsprechend dem aktuellen Status des Zielagenten zu normalisieren [5, 7, 10]–[13] (agentenzentriert). Dies bedeutet, dass der Normalisierungsprozess und die Merkmalskodierung für jeden Zielagenten wiederholt durchgeführt werden müssen, was zu einer besseren Leistung auf Kosten redundanter Berechnungen führt. Daher ist es notwendig, eine Methode zu erforschen, die die Merkmale mehrerer Objekte effektiv kodieren kann und gleichzeitig die Robustheit gegenüber Perspektivenänderungen beibehält.
Für nachgelagerte Module der Bewegungsvorhersage, wie Entscheidungsfindung und Bewegungsplanung, muss nicht nur die zukünftige Position berücksichtigt werden, sondern auch Kurs, Geschwindigkeit und andere Ableitungen höherer Ordnung. Beispielsweise spielen die vorhergesagten Richtungen umgebender Fahrzeuge eine Schlüsselrolle bei der Gestaltung der zukünftigen Raum-Zeit-Belegung, was ein Schlüsselfaktor für die Gewährleistung einer sicheren und robusten Bewegungsplanung ist [15, 16]. Darüber hinaus kann die unabhängige Vorhersage von Größen höherer Ordnung ohne Einhaltung physikalischer Einschränkungen zu inkonsistenten Vorhersageergebnissen führen [17, 18]. Obwohl die Geschwindigkeit beispielsweise Null ist, kann es zu einer Positionsverschiebung kommen, die das Planungsmodul verwirrt.
In diesem Artikel wird eine Methode namens SIMPL (Simple and Efficient Motion Prediction Baseline) vorgestellt, um das Schlüsselproblem der Trajektorienvorhersage mit mehreren Agenten in autonomen Fahrsystemen zu lösen. Die Methode übernimmt zunächst eine instanzzentrierte Szenendarstellung und führt dann die SFT-Technologie (Symmetric Fusion Transformer) ein, die in der Lage ist, die Flugbahnen aller Agenten in einem einzigen Feed-Forward-Durchgang effektiv vorherzusagen und dabei die Genauigkeit und Robustheit gegenüber dem perspektivischen Invarianzgeschlecht beizubehalten. Im Vergleich zu anderen Methoden, die auf symmetrischer Kontextfusion basieren, ist SFT einfacher, leichter und einfacher zu implementieren, wodurch es für den Einsatz in Fahrzeugumgebungen geeignet ist.
Zweitens stellt dieser Artikel eine neuartige Parametrisierungsmethode für vorhergesagte Trajektorien vor, die auf dem Bernstein-Basispolynom (auch als Bezier-Kurve bekannt) basiert. Diese kontinuierliche Darstellung gewährleistet eine reibungslose Darstellung und ermöglicht eine einfache Auswertung des genauen Zustands und seiner Ableitungen höherer Ordnung zu jedem Zeitpunkt. Die empirische Untersuchung dieser Arbeit zeigt, dass das Erlernen der Vorhersage der Kontrollpunkte von Bezier-Kurven effizienter und numerisch stabiler ist als das Schätzen der Koeffizienten monomialer Basispolynome.
Schließlich sind die vorgeschlagenen Komponenten gut in ein einfaches und effizientes Modell integriert. In diesem Artikel wird die vorgeschlagene Methode anhand von zwei großen Bewegungsvorhersagedatensätzen bewertet [22, 23], und die experimentellen Ergebnisse zeigen, dass SIMPL trotz seines vereinfachten Designs im Vergleich zu anderen hochmodernen Methoden äußerst konkurrenzfähig ist. Noch wichtiger ist, dass SIMPL eine effiziente Flugbahnvorhersage mit mehreren Agenten mit weniger lernbaren Parametern und geringerer Inferenzlatenz ermöglicht, ohne die Quantifizierungsleistung zu beeinträchtigen, was für den Einsatz in der Luft in der Praxis vielversprechend ist. In diesem Dokument wird auch hervorgehoben, dass SIMPL als starke Basis eine hervorragende Skalierbarkeit aufweist. Die einfache Architektur erleichtert die direkte Integration mit den neuesten Fortschritten in der Bewegungsvorhersage und bietet Möglichkeiten zur weiteren Verbesserung der Gesamtleistung.
Abbildung 1: Darstellung der Multi-Agent-Bewegungsvorhersage in komplexen Fahrszenarien. Unser Ansatz ist in der Lage, für alle relevanten Agenten gleichzeitig und in Echtzeit sinnvolle Hypothesen zu generieren. Ihr eigenes Fahrzeug und andere Fahrzeuge werden jeweils in Rot und Blau angezeigt. Verwenden Sie Verlaufsfarben, um vorhergesagte Trajektorien basierend auf Zeitstempeln zu visualisieren. Weitere Beispiele finden Sie im beigefügten Video.
Abbildung 2: SIMPL-Schema. In diesem Artikel wird die einfachste mögliche Netzwerkarchitektur verwendet, um deren Wirksamkeit zu demonstrieren. Lokale Merkmale semantischer Instanzen werden von einem einfachen Encoder verarbeitet, während Merkmale zwischen Instanzen in relativen Positionseinbettungen erhalten bleiben. Die Ergebnisse der multimodalen Trajektorienvorhersage werden von einem Bewegungsdecoder nach dem vorgeschlagenen symmetrischen Feature-Transformer generiert.
Abbildung 3: Schematische Darstellung der Berechnung der relativen Pose.
Abbildung 4: Abbildung des vorgeschlagenen L-Layer-Symmetric-Fusion-Transformators (SFT). Instanztokens und relative Positionseinbettungen (RPE) werden in jeder SFT-Schicht zyklisch aktualisiert.
Abbildung 5: 2D septische Bezier-Kurve (links).
Dieser Artikel schlägt ein einfaches und effizientes autonomes Fahrmulti- vor Zweck Basislinie für die Vorhersage der Agentenbewegung. Unter Verwendung des vorgeschlagenen symmetrischen Fusionstransformators erreicht die vorgeschlagene Methode eine effiziente globale Merkmalsfusion und behält die Robustheit gegenüber Blickwinkelbewegungen bei. Die kontinuierliche Trajektorienparametrisierung auf Basis von Bernstein-Basispolynomen sorgt für eine höhere Kompatibilität mit nachgeschalteten Modulen. Experimentelle Ergebnisse an großen öffentlichen Datensätzen zeigen, dass SIMPL Vorteile in Bezug auf Modellgröße und Inferenzgeschwindigkeit bietet und gleichzeitig das gleiche Maß an Genauigkeit wie andere hochmoderne Methoden erreicht.
Zhang L, Li P, Liu S, et al. SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving[J].
Das obige ist der detaillierte Inhalt vonSIMPL: Ein einfacher und effizienter Multi-Agent-Benchmark zur Bewegungsvorhersage für autonomes Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!