Heim >Technologie-Peripheriegeräte >KI >Besser als alle Methoden! HIMap: Durchgängige vektorisierte HD-Kartenkonstruktion
Die vektorisierte hochauflösende (HD) Kartenerstellung erfordert die Vorhersage der Kategorien und Punktkoordinaten von Kartenelementen (z. B. Straßengrenzen, Fahrbahntrenner, Zebrastreifen usw.). Moderne Methoden basieren hauptsächlich auf dem Repräsentationslernen auf Punktebene zur Regression präziser Punktkoordinaten. Diese Pipeline weist jedoch Einschränkungen beim Abrufen von Informationen auf Elementebene und beim Behandeln von Fehlern auf Elementebene auf, z. B. falsche Elementformen oder Verschränkungen zwischen Elementen. Um die oben genannten Probleme zu lösen, schlägt dieses Papier ein einfaches und effektives Hybrid-Framework namens HIMap vor, um Informationen auf Punkt- und Elementebene vollständig zu lernen und mit ihnen zu interagieren.
Konkret wird eine Hybriddarstellung namens HIQuery eingeführt, um alle Kartenelemente darzustellen, und ein Punktelement-Interaktor wird vorgeschlagen, um die Hybridinformationen von Elementen, wie Punktpositionen und Elementformen, interaktiv zu extrahieren und in HIQuery zu codieren. Darüber hinaus werden auch Punktelement-Konsistenzbeschränkungen vorgeschlagen, um die Konsistenz zwischen Informationen auf Punktebene und auf Elementebene zu verbessern. Abschließend können die ausgegebenen Punktelemente der integrierten HIQuery direkt in die Klasse, Punktkoordinaten und Maske des Kartenelements umgewandelt werden. Umfangreiche Experimente werden mit nuScenes- und Argoverse2-Datensätzen durchgeführt und zeigen durchweg bessere Ergebnisse als frühere Methoden. Es ist erwähnenswert, dass die Methode 77,8 mAP im nuScenes-Datensatz erreicht, was um mindestens 8,3 mAP deutlich besser ist als beim vorherigen SOTA!
Papiername: HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
Papierlink: https://arxiv.org/pdf/2403.08639.pdf
HIMap stellt erstmals einen Hybrid namens HIQuery Represents all Map vor Elemente in der Karte. Dabei handelt es sich um eine Reihe lernbarer Parameter, die durch Interaktion mit BEV-Funktionen iterativ aktualisiert und verfeinert werden können. Anschließend wird ein mehrschichtiger Hybriddecoder entwickelt, um die Hybridinformationen von Kartenelementen (z. B. Punktposition, Elementform) in HIQuery zu codieren und eine Punktelementinteraktion durchzuführen, siehe Abbildung 2. Jede Schicht des Hybriddecoders umfasst Punktelementinteraktoren, Selbstaufmerksamkeit und FFN. Innerhalb des Punkt-Element-Interaktors ist ein gegenseitiger Interaktionsmechanismus implementiert, um den Austausch von Informationen auf Punkt- und Elementebene zu realisieren und die Lernverzerrung von Informationen auf einer Ebene zu vermeiden. Schließlich können die Ausgabepunktelemente von integrierter HIQuery direkt in die Punktkoordinaten, die Klasse und die Maske des Elements konvertiert werden. Darüber hinaus werden Punktelement-Konsistenzbeschränkungen vorgeschlagen, um die Konsistenz zwischen Informationen auf Punktebene und auf Elementebene zu verbessern.
Der Gesamtprozess von HIMap ist in Abbildung 3(a) dargestellt. HIMap ist mit einer Vielzahl luftgestützter Sensordaten kompatibel, beispielsweise RGB-Bildern von Multi-View-Kameras, Punktwolken von Lidar oder multimodalen Daten. Hier nehmen wir RGB-Bilder mit mehreren Ansichten als Beispiel, um die Funktionsweise von HIMap zu erklären.
BEV Feature Extractor ist ein Tool zum Extrahieren von BEV-Features aus RGB-Bildern mit mehreren Ansichten. Sein Kern besteht darin, den Backbone-Teil von 2D-Features mit mehreren Maßstäben aus jeder Perspektive zu extrahieren, den FPN-Teil von Features mit einem Maßstab durch Fusion und Verfeinerung von Features mit mehreren Maßstäben zu erhalten und das Modul zur Konvertierung von 2D-zu-BEV-Features zu verwenden, um 2D-Features in BEV abzubilden Merkmale. . Dieser Prozess trägt dazu bei, Bildinformationen in BEV-Merkmale umzuwandeln, die sich besser für die Verarbeitung und Analyse eignen, und verbessert so die Benutzerfreundlichkeit und Genauigkeit der Merkmale. Durch diese Methode können wir die Informationen in Multi-View-Bildern besser verstehen und nutzen, was eine stärkere Unterstützung für die nachfolgende Datenverarbeitung und Entscheidungsfindung bietet.
HIQuery: Um die Informationen von Kartenelementen auf Punkt- und Elementebene vollständig zu lernen, wird HIQuery eingeführt, um alle Elemente in der Karte darzustellen!
Hybrid-Decoder: Der Hybrid-Decoder erzeugt integrierte HIQuery durch iterative Interaktion von HIQuery Qh mit BEV-Funktionen X.
Das Ziel des Punktelement-Interaktors besteht darin, interaktiv Informationen von Kartenelementen auf Punkt- und Elementebene zu extrahieren und in HIQuery zu kodieren. Die Motivation für das Zusammenspiel der beiden Informationsebenen liegt in ihrer Komplementarität. Informationen auf Punktebene enthalten lokales Standortwissen, während Informationen auf Elementebene globales Form- und Semantikwissen bereitstellen. Diese Interaktion ermöglicht somit eine gegenseitige Verfeinerung lokaler und globaler Informationen von Kartenelementen.
In Anbetracht des ursprünglichen Unterschieds zwischen der Darstellung auf Punktebene und der Darstellung auf Elementebene, die sich jeweils auf lokale Informationen und globale Informationen konzentrieren, kann sich das Lernen von Darstellungen auf zwei Ebenen auch gegenseitig beeinträchtigen. Dies erhöht die Schwierigkeit der Informationsinteraktion und verringert die Wirksamkeit der Informationsinteraktion. Daher werden Punktelement-Konsistenzbeschränkungen eingeführt, um die Konsistenz zwischen den einzelnen Punktebenen- und Elementebeneninformationen zu verbessern, und die Unterscheidbarkeit von Elementen kann ebenfalls verbessert werden!
Der Artikel führte Experimente mit dem NuScenes-Datensatz und dem Argoverse2-Datensatz durch!
Vergleich des SOTA-Modells auf dem nuScenes-Wertesatz:
Vergleich des SOTA-Modells auf dem Argoverse2-Wertesatz:
Vergleich mit dem SOTA-Modell unter Nuscenes Validierungssatz Multimodaldaten:
Weitere Ablationsexperimente:
Das obige ist der detaillierte Inhalt vonBesser als alle Methoden! HIMap: Durchgängige vektorisierte HD-Kartenkonstruktion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!