Heim >Technologie-Peripheriegeräte >KI >MapEX über SOTA hinaus: Atemberaubende Leistungsverbesserungen und kartenlose Wahrnehmungstechnologie
Werden Sie nach dem Lesen dieses Artikels die Illusion haben, dass die bildlose Wahrnehmung vorbei ist? ? ? MapEX wurde gerade veröffentlicht. Ich kann es kaum erwarten, die Essenz einer Welle von Artikeln aufzunehmen und sie mit allen zu teilen. Der Kern von MapEX besteht darin, historisch gespeicherte Karteninformationen zu verwenden, um die Erstellung aktueller lokaler hochpräziser Karten zu optimieren. Die historische Karte kann eine Karte mit nur einigen einfachen Kartenelementen (z. B. Straßengrenzen) oder eine Karte mit Rauschen (z. B. Straßengrenzen) sein die Abweichung jedes Kartenelements). Offensichtlich sind diese historischen Karteninformationen für die aktuelle lokale hochpräzise Kartenkonstruktion nützlich, was auch zum Kern dieses Artikels führt, nämlich wie man sie verwendet. ? ? Insbesondere basiert MapEX auf MapTRv2. Diese historischen Karteninformationen können in eine Reihe von Abfragen codiert und mit der ursprünglichen Abfrage zusammengefügt werden, und der Decoder gibt die Vorhersageergebnisse weiter aus. Der Artikel ist immer noch sehr interessant~
Die vom Sensor generierte Online-Hochpräzisionskarte (HDMap) gilt als kostengünstige Alternative zur herkömmlichen manuellen Erfassung von HDMap, so heißt es Es wird erwartet, dass die Kosten für autonome Fahrsysteme, die auf HDMap basieren, sinken, und es ist auch möglich, es auf neue Systeme anzuwenden.
In diesem Artikel wird eine Methode zur Verbesserung der Online-HDMap-Schätzung vorgeschlagen, indem vorhandene Karten zur Optimierung berücksichtigt werden. In der Studie identifizierten die Autoren drei sinnvolle Arten vorhandener Karten, darunter einfache Karten, verrauschte Karten und alte Karten. Darüber hinaus stellt dieses Dokument ein neues Online-HDMap-Erstellungsframework namens MapEX zur Erfassung vorhandener Karten vor. MapEX erreicht dieses Ziel, indem es Kartenelemente als Abfragen kodiert und den Matching-Algorithmus des klassischen abfragebasierten Kartenschätzungsmodells verbessert.
Der Artikel zeigt endlich die deutliche Verbesserung von MapEX am nuScenes-Datensatz. Beispielsweise verbessert sich MapEX (bei einer verrauschten Karte) im Vergleich zur MapTRv2-Erkennung um 38 % und ist 16 % besser als der aktuelle Stand der Technik.
Zusammenfassend lassen sich die Hauptbeiträge von MapEX wie folgt zusammenfassen:
Hier skizzieren wir kurz einige Inhalte zu hochpräzisen Karten (HDMaps) beim autonomen Fahren. Zuerst haben wir die Verwendung von HDMap bei der Flugbahnvorhersage untersucht und dann darüber gesprochen, wie man diese Kartendaten erhält. Abschließend besprechen wir den Prozess der Online-HDMap-Erstellung.
HDMaps zur Trajektorienvorhersage: Autonomes Fahren erfordert oft eine große Menge an Informationen über die Welt, in der das Fahrzeug navigiert. Diese Informationen werden häufig in umfangreiche HDMaps eingebettet und dienen als Eingabe zur Modifizierung neuronaler Netze. HDMaps haben sich als entscheidend für die Leistung der Flugbahnvorhersage erwiesen. Insbesondere bei der Flugbahnvorhersage basieren einige Methoden explizit auf der Darstellung von HDMap, sodass ein Zugriff auf HDMap unbedingt erforderlich ist.
HDMap-Beschaffung und -Wartung: Herkömmliche HDMap-Beschaffungs- und -Wartungskosten sind hoch. Während es sich bei den in der Vorhersage verwendeten HDMaps lediglich um eine vereinfachte Version handelt, die Kartenelemente (Spurtrenner, Straßengrenzen usw.) enthält und einen Großteil der komplexen Informationen bereitstellt, die in vollständigen HDMaps zu finden sind, erfordern sie dennoch sehr präzise Messungen. Infolgedessen sind viele Unternehmen zu weniger strengen Standards für Karten mittlerer Auflösung (MDMaps) oder sogar zu Navigationskarten (Google Maps, SDMaps) übergegangen. Entscheidend ist, dass eine MDMap mit einer Genauigkeit von einigen Metern ein gutes Beispiel für eine vorhandene Karte ist und wertvolle Informationen für den Online-HDMap-Generierungsprozess liefert. Unser Kartenszenario 2a untersucht eine Annäherung an diese Situation.
Online-HDMap-Konstruktion von Sensoren: Die Online-HDMap-Konstruktion ist also zum Kern der Lichtbild-/bildlosen Wahrnehmung geworden. Während sich einige Arbeiten auf die Vorhersage virtueller Kartenelemente, d. h. Spurmittellinien, konzentrieren, konzentrieren sich andere Arbeiten auf visuell identifizierbarere Kartenelemente: Spurtrenner, Straßenbegrenzungen und Zebrastreifen. Vielleicht weil visuelle Elemente von Sensoren leichter erkannt werden können, hat letzterer Ansatz im vergangenen Jahr rasante Fortschritte gemacht. Interessanterweise bietet die neueste Methode dieser Art, Map-TRv2, eine Hilfseinstellung zur Erkennung der tatsächlichen Fahrspurmittellinien. Dies zeigt eine Konvergenz zu komplexeren Schemata, einschließlich einer Vielzahl zusätzlicher Kartenelemente (Ampeln usw.).
Die Arbeit dieses Artikels ähnelt häufig untersuchten Änderungserkennungsproblemen, die darauf abzielen, Änderungen (z. B. Kreuzungen) in Karten zu erkennen. Das Ziel von MapEX besteht darin, mit Hilfe vorhandener (möglicherweise sehr unterschiedlicher) Karten eine genaue Online-HDMap zu generieren, was für das aktuelle Online-HDMap-Konstruktionsproblem erreicht wird. Daher haben wir nicht nur kleine Fehler in der Karte korrigiert, sondern auch einen ausdrucksstärkeren Rahmen vorgeschlagen, der alle Änderungen (z. B. verzerrte Linien, sehr verrauschte Elemente) berücksichtigen kann.
Unser Kerngedanke ist, dass die Nutzung vorhandener Karten die Online-Erstellung von HDMaps erleichtern wird. Wir glauben, dass es viele legitime Umstände gibt, unter denen unvollkommene Karten entstehen können.
Wir übernehmen das Standardformat für die Online-Generierung von HDMaps aus Sensoren: Wir glauben, dass HDMaps aus drei Arten von Polylinien, Straßengrenzen, Spurtrennungen und Zebrastreifen bestehen, deren Farben sich von den vorherigen unterscheiden Grün bzw. Steingrau. Gleich wie Blau, wie in Abbildung 2a dargestellt.
Während echte HDMaps viel komplexer sind und anspruchsvollere Darstellungen vorgeschlagen wurden, besteht der Zweck dieser Arbeit darin, zu untersuchen, wie vorhandene Karteninformationen zu interpretieren sind. Daher verwenden wir das am besten untersuchte Paradigma. Die Arbeit dieses Artikels lässt sich direkt auf die Vorhersage von mehr Kartenelementen, feineren Polylinien oder gerasterten Zielen anwenden.
Da die Anschaffung von Standardkarten teuer und zeitaufwändig ist, haben wir ungenaue Karten synthetisch aus vorhandenen HDMaps generiert.
Zu diesem Zweck haben wir MapModEX entwickelt, eine unabhängige Kartenmodifikationsbibliothek. Es nimmt nuScenes-Kartendateien und Beispieldatensätze und gibt für jedes Beispiel die Polylinienkoordinaten von Gehwegen, Grenzen und Fußgängerüberwegen in einem bestimmten Bereich um das Ego-Fahrzeug aus. Wichtig ist, dass MapModEX die Möglichkeit bietet, diese Polylinien zu ändern, um verschiedene Änderungen widerzuspiegeln: Löschen von Kartenelementen, Hinzufügen, Verschieben von Fußgängerüberwegen, Hinzufügen von Rauschen zu Punktkoordinaten, Kartenbewegung, Kartendrehung und Kartenverzerrung. MapModEX wird nach der Veröffentlichung verfügbar sein, um die weitere Neusuche vorhandener Karten in die Online-HDMap-Erfassung des Sensors zu erleichtern.
Wir haben drei herausfordernde Szenarien mit dem MapModEX-Paket implementiert, wie unten beschrieben, und dabei 10 Varianten der Szenarien 2 und 3 für jedes Beispiel generiert (Szenario 1 erlaubt nur eine Variante). Wir haben uns für die Verwendung eines festen Satzes modifizierter Karten entschieden, um die Kosten während des Trainings zu senken und reale Situationen abzubilden, in denen möglicherweise nur eine begrenzte Anzahl von Kartenvarianten verfügbar ist.
Das erste Szenario besteht darin, dass nur eine grobe HDMap (ohne Trennlinien und Zebrastreifen) verfügbar ist, wie in Abbildung 2b dargestellt. Straßengrenzen werden häufig mit physischen 3D-Markierungen wie Gehwegkanten in Verbindung gebracht, während Gehwege und Fußgängerüberwege häufig durch flache Markierungen dargestellt werden, die leichter zu übersehen sind. Darüber hinaus werden Fußgängerüberwege und Fahrbahntrenner aufgrund von Bauarbeiten oder Straßenumleitungen häufig außer Betrieb gesetzt oder sogar teilweise durch Reifenspuren verdeckt.
Daher ist es sinnvoll, HDMaps nur mit Rändern zu verwenden. Dies hat den Vorteil, dass nur die Straßenbeschränkungen gekennzeichnet werden müssen, wodurch die Kosten für die Kennzeichnung gesenkt werden können. Darüber hinaus sind möglicherweise weniger präzise Geräte und Aktualisierungen erforderlich, um nur Straßengrenzen zu lokalisieren. Umsetzung Aus praktischer Sicht ist die Umsetzung von Szenario 1 einfach: Wir entfernen Trennwände und Zebrastreifen aus den verfügbaren HDMaps.
Das zweite mögliche Szenario besteht darin, dass wir nur eine sehr verrauschte Karte haben, wie in Abbildung 2c dargestellt. Eine Schwäche bestehender HDMaps ist die Notwendigkeit einer hohen Genauigkeit (in der Größenordnung von einigen Zentimetern), was einen großen Druck auf ihre Anschaffung und Wartung ausübt [11]. Tatsächlich ist ein wesentlicher Unterschied zwischen HDMaps und dem neuen MDMaps-Standard die geringere Genauigkeit (einige Zentimeter gegenüber einigen Metern).
Wir empfehlen daher, verrauschte HDMaps zu verwenden, um Situationen zu simulieren, in denen ungenauere Karten möglicherweise auf günstigere Erfassungsprozesse zurückzuführen sind, oder stattdessen den MDMaps-Standard zu verwenden. Noch interessanter ist, dass diese weniger präzisen Karten automatisch aus Sensordaten abgeleitet werden können. Obwohl Methoden wie MapTRv2 eine sehr beeindruckende Leistung erzielt haben, sind sie noch nicht ganz genau: Selbst bei sehr flexiblen Abrufschwellen liegt die Vorhersagegenauigkeit deutlich unter 80 %.
Implementierung: Wir schlagen zwei mögliche Implementierungen dieser verrauschten HDMaps vor, um verschiedene Bedingungen widerzuspiegeln, unter denen es möglicherweise an Genauigkeit mangelt. Im ersten Szenario 2a schlagen wir ein Offset-Rauschen-Setup vor, bei dem wir für jede Kartenelementpositionierung Rauschen aus einer Gaußschen Verteilung mit einer Standardabweichung von 1 Meter hinzufügen. Dies hat zur Folge, dass auf jedes Kartenelement (Trennlinien, Grenzen, Zebrastreifen) eine einheitliche Übersetzung angewendet wird. Ein solcher Aufbau sollte eine gute Annäherung an die Situation bieten, in der menschliche Annotatoren schnell ungenaue Annotationen aus verrauschten Daten liefern. Wir haben eine Standardabweichung von 1 Meter gewählt, um den MDMaps-Standard auf wenige Meter genau wiederzugeben.
Wir testen unsere Methode dann an einem sehr anspruchsvollen punktuellen Rauschszenario 2b: Für jeden Ground-Truth-Punkt – denken Sie daran, ein Kartenelement besteht aus 20 solchen Punkten – beginnen wir mit einer Standardabweichung des Stichprobenrauschens von einer 5-Meter-Gaußverteilung und Addiere es zu den Punktkoordinaten. Dies stellt eine Worst-Case-Näherung für Situationen dar, in denen die Karte automatisch eine Positionierung erfasst oder eine sehr ungenaue Positionierung bereitstellt.
Das letzte Szenario, das wir betrachten, ist, dass wir Zugriff auf eine alte Karte haben, die in der Vergangenheit korrekt war (siehe Abbildung 2d). Es kommt relativ häufig vor, dass sich Farbmarkierungen wie Zebrastreifen von Zeit zu Zeit verschieben. Darüber hinaus hat die Stadt einige problematische Kreuzungen oder Bereiche grundlegend renoviert, um dem durch die neuen Attraktionen erhöhten Verkehr Rechnung zu tragen.
Es macht also Spaß, mit HDMaps zu arbeiten, sie sind zwar für sich genommen gültig, aber im Großen und Ganzen nicht mit tatsächlichen HDMaps identisch. Als HDMaps nur alle paar Jahre von den Betreuern aktualisiert wurden, um die Kosten niedrig zu halten, hätten diese Karten regelmäßig verfügbar sein sollen. In diesem Fall stellt die vorhandene Karte weiterhin einige Informationen über die Welt bereit, spiegelt jedoch möglicherweise keine vorübergehenden oder kürzlich erfolgten Änderungen wider.
Implementierung: Wir nähern uns dem an, indem wir in Szenario 3a robuste Änderungen an vorhandenen HDMaps vornehmen. Wir haben 50 % der Zebrastreifen und Fahrspurtrenner in der Karte entfernt, einige Zebrastreifen hinzugefügt (die Hälfte der verbleibenden Zebrastreifen) und schließlich eine kleine Verzerrung auf die Karte angewendet.
Es ist jedoch wichtig zu beachten, dass ein großer Teil der Weltkarte im Laufe der Zeit unverändert bleiben wird. Wir berücksichtigen dies in unserem Szenario 3b, in dem wir die Auswirkungen einer zufälligen Entscheidung (mit Wahrscheinlichkeit p = 0,5) untersuchen, die echte HDMap anstelle der gestörten Version zu berücksichtigen.
Zu diesem Zweck schlagen wir MapEX (siehe Abbildung 3) vor, ein neues Framework für die Online-HDMap-Erstellung. Es folgt dem standardmäßigen abfragebasierten Online-HDMap-Konstruktionsparadigma und verarbeitet vorhandene Karteninformationen über zwei Schlüsselmodule: das Kartenabfrage-Kodierungsmodul und das Vorhersage- und GT-Vorab-Zuordnungsschema. In diesem Artikel wird eine Basislinie basierend auf MapTRv2 erstellt.
Der abfragebasierte Kern wird durch die grauen Elemente in Abbildung 3 dargestellt. Es nimmt zunächst die Sensoreingabe (Kamera oder Lidar) und kodiert sie als Sensormerkmale in eine Vogelperspektive (BEV)-Darstellung. Verwenden Sie ein DETR-ähnliches Erkennungsschema, um Kartenelemente (bis zu N) zu erkennen und die Karte selbst zu erhalten. Dies wird erreicht, indem N×L erlernte Abfragetoken (N ist die maximale Anzahl erkannter Elemente, L ist die Anzahl der für das Element vorhergesagten Punkte) an einen Transformer-Decoder übergeben werden, der BEV-Funktionen mit der Queraufmerksamkeit nutzt und Sensorinformationen zuführt das Abfragetoken. Die dekodierten Abfragen werden dann über eine lineare Ebene zusammen mit Klassenvorhersagen (einschließlich zusätzlicher Hintergrundklassen) in Kartenelementkoordinaten umgewandelt, sodass L Abfragegruppen L Punkte des Kartenelements darstellen (L = 20 in diesem Artikel). Das Training erfolgt durch den Abgleich vorhergesagter Kartenelemente und GT-Kartenelemente mithilfe einer Variante des ungarischen Algorithmus. Nach der Übereinstimmung wird das Modell so optimiert, dass das vorhergesagte Kartenelement mit der GT übereinstimmt, auf die es reagiert, wobei Regressionsverluste (für Koordinaten) und Klassifizierungsverluste (für Elementkategorien) verwendet werden.
Aber dieses Framework kann bestehende Karten nicht interpretieren, was die Einführung neuer Module auf zwei Schlüsselebenen erfordert. Auf der Abfrageebene kodieren wir Kartenelemente in nicht lernbare EX-Abfragen. Auf der Matching-Ebene stellen wir die Abfrageattribute den GT-Kartenelementen voran, die sie darstellen.
Das vollständige MapEX-Framework (dargestellt in Abbildung 3) wandelt vorhandene Kartenelemente in nicht lernbare Kartenabfragen um und fügt lernbare Abfragen hinzu, um eine bestimmte Anzahl von Abfragen N×L zu erreichen. Dieser vollständige Satz von Abfragen wird dann an den Transformer-Decoder übergeben und wie üblich über eine lineare Schicht in Vorhersagen umgewandelt. Beim Training gleicht unser Attributionsmodell einige Vorhersagen vorab mit GT ab und die übrigen Vorhersagen werden normalerweise mithilfe des ungarischen Matchings abgeglichen. Zum Testzeitpunkt erzeugen decodierte Nicht-Hintergrundabfragen HDMap-Darstellungen.
Im aktuellen Online-HDMap-Erstellungsrahmen gibt es keinen Mechanismus zur Interpretation vorhandener Karteninformationen. Daher müssen wir ein neues Schema entwerfen, das vorhandene Karten in eine Form übersetzen kann, die vom standardmäßigen abfragebasierten Online-HDMap-Konstruktionsframework verstanden werden kann. Wir schlagen eine einfache Methode mit MapEX vor, um vorhandene Kartenelemente in eine EX-Abfrage für den Decoder zu kodieren, wie in Abbildung 4 dargestellt.
Für ein bestimmtes Kartenelement extrahieren wir L äquidistante Punkte, wobei L die Anzahl der Punkte ist, die wir für jedes Kartenelement vorhersagen möchten. Für jeden Punkt erstellen wir eine EX-Abfrage, die seine Kartenkoordinaten (x,y) in den ersten beiden Dimensionen und die Kartenelementklasse (Teiler, Schnittpunkt oder Grenze) in den nächsten drei Dimensionen kodiert. Führen Sie eine einmalige Kodierung durch. Der Rest der EX-Abfrage wird mit Nullen aufgefüllt, um die von der Decoder-Architektur verwendete Standardabfragegröße zu erreichen.
Obwohl dieses Abfragedesign sehr einfach ist, bietet es die wichtigsten Vorteile der direkten Kodierung der interessierenden Informationen (Punktkoordinaten und Elementklassen) und der Minimierung von Konflikten mit erlernten Abfragen (dank der umfassenden 0-Auffüllung).
Sobald wir eine Reihe von L-Abfragen haben (für Kartenelemente in einer vorhandenen Karte), können wir eine Reihe von L kategorialen lernbaren Abfragen aus dem standardmäßigen lernbaren Abfragepool abrufen ( ). Anschließend werden die generierten N×L-Abfragen gemäß der Methode dieses Artikels dem Decoder zugeführt: In MapTR werden N×L-Abfragen als unabhängige Abfragen behandelt, während MapTRv2 ein effektiveres entkoppeltes Aufmerksamkeitsschema verwendet, um dieselben Kartenelemente zu kombinieren. der Abfragen werden zusammengefasst. Nach der Vorhersage der Kartenelemente aus der Abfrage können diese direkt zum Testzeitpunkt verwendet oder mit der trainierten GT abgeglichen werden.
Während EX-Abfragen eine Möglichkeit bieten, vorhandene Karteninformationen zu interpretieren, gibt es keine Garantie dafür, dass das Modell diese Abfragen korrekt verwendet, um die entsprechenden Elemente abzuschätzen. Tatsächlich erkennt das Netzwerk bei alleiniger Verwendung nicht einmal eine völlig genaue EX-Abfrage. Daher führen wir die Vorabzuordnung von Vorhersage- und GT-Elementen ein, bevor wir das traditionelle ungarische Matching im Training verwenden, wie in Abbildung 3 dargestellt.
Einfach ausgedrückt: Wir verfolgen jedes Kartenelement in der geänderten Karte und sehen, welchem GT-Kartenelement es entspricht: Wenn das Kartenelement nicht geändert, versetzt oder verzerrt ist, können wir es mit dem ursprünglichen Kartenelement in der echten Karte vergleichen In Kontakt kommen. Um sicherzustellen, dass das Modell lernt, nur nützliche Informationen zu verwenden, halten wir nur eine Übereinstimmung bei der durchschnittlichen punktweisen Verschiebungsbewertung zwischen dem modifizierten Kartenelement und dem realen Kartenelement aufrecht:
Zwischen einer gegebenen GT und einer vorab vorhergesagten Mithilfe der Kartenelementkorrespondenz können wir vorab zugeordnete Kartenelemente aus dem Pool der abzugleichenden Elemente entfernen. Die verbleibenden Kartenelemente (vorhergesagt und GT) werden dann wie üblich mit einer Variation des ungarischen Algorithmus abgeglichen. Daher muss der ungarische Matching-Schritt nur identifizieren, welche EX-Abfragen hinzugefügten Kartenelementen entsprechen, die nicht vorhanden sind, und Standard-Lernabfragen finden, die zu einigen realen Kartenelementen passen, die in der realen Karte nicht vorhanden sind (aufgrund von Löschungen oder starken Störungen). .
Die Reduzierung der Anzahl der Elemente, die der ungarische Algorithmus verarbeiten muss, ist wichtig, da selbst die effizienteste Variante kubische Komplexität aufweist ()[8]. Dies ist keine große Schwäche der meisten aktuellen Online-HDMap-Erfassungsmethoden, da die vorhergesagten Karten klein sind (30 m × 60 m) und nur drei Arten von Kartenelementen vorhergesagt werden. Mit der Weiterentwicklung der Online-Kartenerstellung wird es jedoch notwendig, immer mehr Kartenelemente zu berücksichtigen, da Vorhersagekarten immer größer und vollständiger werden.
Einrichtung: Wir haben das MapEX-Framework anhand des nuScenes-Datensatzes evaluiert, da es sich um den Standardbewertungsdatensatz für die Online-HDMap-Schätzung handelt. Wir basieren auf dem MapTRv2-Framework und der offiziellen Codebasis. Gemäß der gängigen Praxis berichten wir über die durchschnittliche Genauigkeit von drei Kartenelementtypen (Teiler, Grenze, Kreuzung) bei unterschiedlichen Abrufschwellenwerten (0,5 m, 1,0 m und 1,5 m Fasenabstand) sowie über die Karte der drei Kategorien.
Für jedes Experiment wurden 3 Experimente mit drei festen Zufallsstartwerten durchgeführt. Wichtig ist, dass für eine bestimmte Kombination von Seeds und Kartenszenen die vorhandenen Kartendaten, die während der Validierung bereitgestellt werden, festgelegt werden, um den Vergleich zu erleichtern. Aus Konsistenzgründen geben wir die Ergebnisse als Mittelwert ± Standardabweichung auf die nächste Dezimalstelle genau an, auch wenn die Standardabweichung diese Genauigkeit überschreitet.
Wir bieten in Tabelle 2 einen Vergleich verwandter Methoden sowie die Leistung von MapEX: Karte ohne Fahrspurtrenner oder Zebrastreifen (S1), Karte mit Rauschen (S2a für versetzte Kartenelemente, S2b für starkes punktuelles Rauschen) und weitgehend wechselnde Karten (S3a enthält nur diese Karten, S3b enthält gemischte reale Karten). Wir vergleichen die Leistung von MapEX ausführlich mit bestehenden Online-HDMap-Bewertungen bei vergleichbaren Einstellungen (Kameraeingang, CNN-Backbone) und mit dem aktuellen Stand der Technik (der deutlich mehr Ressourcen verbraucht).
Erstens geht aus Tabelle 2 hervor, dass MapEX bei jeder Art vorhandener Karteninformationen die vorhandene Literatur in vergleichbaren Umgebungen deutlich übertrifft, unabhängig vom betrachteten Szenario. In allen bis auf einen Fall ermöglichten die vorhandenen Karteninformationen MapEX sogar eine bessere Leistung als das aktuelle, hochmoderne MapTRv2-Modell, das ein großes ViT-Backbone verwendet, das in vier Trainingseinheiten in doppelt so vielen Zeiträumen vorab auf einem umfangreichen Tiefenschätzungsdatensatz trainiert wurde . Selbst das eher konservative S2a-Szenario mit ungenauer Positionierung der Kartenelemente erzielt eine Verbesserung des AP-Scores um 11,4 mAP (d. h. 16 %).
In allen Szenarien beobachten wir bei allen vier Metriken konsistente Verbesserungen gegenüber dem Basismodell MapTRv2. Verständlicherweise lieferte Szenario 3b (in der Hälfte der Zeit genaue vorhandene Karten verwendend) mit großem Abstand die beste Gesamtleistung und demonstrierte damit die starke Fähigkeit, vollständig genaue vorhandene Karten zu identifizieren und zu nutzen. Sowohl Szenario 2a (mit versetzten Kartenelementen) als auch Szenario 3a (mit „veralteten“ Kartenelementen) bieten eine sehr starke Gesamtleistung mit einer guten Leistung für alle drei Arten von Kartenelementen. In Szenario 1 sind nur Straßengrenzen verfügbar, die sehr groß sind Kartengewinne aufgrund ihrer (erwarteten) sehr leistungsstarken Grenzabfrage, selbst im äußerst anspruchsvollen Szenario 2b, bei dem Gaußsches Rauschen mit einer Standardabweichung von 5 Metern auf jeden Kartenelementpunkt angewendet wird. Es wird auch erhebliche Vorteile gegenüber dem Basismodell geben. mit besonders guter Abrufleistung für Trennzeichen und Grenzen
Wir konzentrieren uns jetzt genauer auf die Verbesserungen, die vorhandene Karteninformationen für MapEX mit sich bringen. Als Referenz vergleichen wir die MapEX-Verbesserungen mit denen anderer Quellen an zusätzlichen Informationen: Neural Map Prior mit global erlernten Feature-Maps und P-MapNet mit geolokalisierten SDMaps basieren auf einem stärkeren Basismodell als diese Methoden, was zwar eine Verbesserung des Basismodells erschwert, aber auch einfacher macht Um einen unfairen Vorteil zu vermeiden, sind in Tabelle 3 absolute Werte angegeben.
Aus Tabelle 3 geht hervor, dass die Verwendung von MapEX mit jeder Art vorhandener Karte zu einem größeren Gesamt-MAP-Gewinn führt als jede andere Quelle zusätzlicher Informationen (einschließlich). (das komplexere P-MapNet-Setup). Wir beobachten, dass die Leistung dieses Modells sowohl an Trennlinien als auch an Straßengrenzen erheblich verbessert wird die Grenzen, aber nur dort, wo es keine vorherigen Informationen gibt. Zebrastreifen bieten vergleichbare Verbesserungen gegenüber früheren Methoden für beide Kartenelemente. Es scheint, dass genauere Informationen aus vorhandenen Karten erforderlich sind, wie in den Szenarien 1 und 2b (Anwenden extrem destruktiven Rauschens auf jeden Kartenpunkt). ) kann nur eine vergleichbare Verbesserung gegenüber bestehenden Techniken erreichen. Szenario 2a (Karte „veraltet“) führt wahrscheinlich zu höheren Zebrastreifen-Erkennungswerten
On-Ground-Truth-Attribution
Da die Vorabbestimmung der Attribute von Kartenelementen wichtig ist, um vorhandene Karteninformationen vollständig zu nutzen, kann es einfacher sein, Attribute für alle entsprechenden Kartenelemente vorab festzulegen, anstatt sie zu filtern, wie dies in MapEX der Fall ist Bestehende Kartenelemente sind zu unterschiedlich. Das Verwerfen von Korrespondenzen ist in der Tat besser, als dies wahllos zu tun, was zu einer besseren Leistung führt. Im Wesentlichen deutet dies darauf hin, dass MapEX besser dran ist, lernbare Abfragen anstelle von EX-Abfragen zu verwenden, wenn vorhandene Kartenelemente zu weit von der Grundwahrheit abweichen.In diesem Artikel wird vorgeschlagen, vorhandene Karten zu nutzen, um die Online-HDMap-Erstellung zu verbessern. Um dies zu untersuchen, skizzieren die Autoren drei realistische Szenarien, in denen vorhandene (einfache, verrauschte oder veraltete) Karten verfügbar sind, und stellen ein neues MapEX-Framework zur Nutzung dieser Karten vor. Da es im aktuellen Framework keinen Mechanismus gibt, um vorhandene Karten zu berücksichtigen, haben wir zwei neue Module entwickelt: eines zum Kodieren von Kartenelementen in EX-Abfragen und ein anderes, um sicherzustellen, dass das Modell diese Abfragen nutzt.
Experimentelle Ergebnisse zeigen, dass vorhandene Karten Schlüsselinformationen für die Online-HDMap-Erstellung darstellen und dass MapEX vergleichbare Methoden in allen Fällen erheblich verbessert. In Bezug auf mAP – Szenario 2a mit zufällig bewegten Kartenelementen – verbessert es sich tatsächlich um 38 % gegenüber dem Basismodell MapTRv2 und um 16 % gegenüber dem aktuellen Stand der Technik.
Wir hoffen, dass diese Arbeit zu neuen Online-HDMap-Konstruktionsmethoden zur Interpretation vorhandener Informationen führen wird. Vorhandene Karten, ob gut oder schlecht, sind weithin verfügbar. Sie zu ignorieren bedeutet, ein wichtiges Werkzeug bei der Suche nach zuverlässigen Online-HDMap-Builds aufzugeben.
Originallink: https://mp.weixin.qq.com/s/FMosLZ2VJVRyeCOzKl-GLw
Das obige ist der detaillierte Inhalt vonMapEX über SOTA hinaus: Atemberaubende Leistungsverbesserungen und kartenlose Wahrnehmungstechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!