


Besser als alle Methoden! HIMap: Durchgängige vektorisierte HD-Kartenkonstruktion
Die vektorisierte hochauflösende (HD) Kartenerstellung erfordert die Vorhersage der Kategorien und Punktkoordinaten von Kartenelementen (z. B. Straßengrenzen, Fahrbahntrenner, Zebrastreifen usw.). Moderne Methoden basieren hauptsächlich auf dem Repräsentationslernen auf Punktebene zur Regression präziser Punktkoordinaten. Diese Pipeline weist jedoch Einschränkungen beim Abrufen von Informationen auf Elementebene und beim Behandeln von Fehlern auf Elementebene auf, z. B. falsche Elementformen oder Verschränkungen zwischen Elementen. Um die oben genannten Probleme zu lösen, schlägt dieses Papier ein einfaches und effektives Hybrid-Framework namens HIMap vor, um Informationen auf Punkt- und Elementebene vollständig zu lernen und mit ihnen zu interagieren.
Konkret wird eine Hybriddarstellung namens HIQuery eingeführt, um alle Kartenelemente darzustellen, und ein Punktelement-Interaktor wird vorgeschlagen, um die Hybridinformationen von Elementen, wie Punktpositionen und Elementformen, interaktiv zu extrahieren und in HIQuery zu codieren. Darüber hinaus werden auch Punktelement-Konsistenzbeschränkungen vorgeschlagen, um die Konsistenz zwischen Informationen auf Punktebene und auf Elementebene zu verbessern. Abschließend können die ausgegebenen Punktelemente der integrierten HIQuery direkt in die Klasse, Punktkoordinaten und Maske des Kartenelements umgewandelt werden. Umfangreiche Experimente werden mit nuScenes- und Argoverse2-Datensätzen durchgeführt und zeigen durchweg bessere Ergebnisse als frühere Methoden. Es ist erwähnenswert, dass die Methode 77,8 mAP im nuScenes-Datensatz erreicht, was um mindestens 8,3 mAP deutlich besser ist als beim vorherigen SOTA!
Papiername: HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
Papierlink: https://arxiv.org/pdf/2403.08639.pdf
HIMap stellt erstmals einen Hybrid namens HIQuery Represents all Map vor Elemente in der Karte. Dabei handelt es sich um eine Reihe lernbarer Parameter, die durch Interaktion mit BEV-Funktionen iterativ aktualisiert und verfeinert werden können. Anschließend wird ein mehrschichtiger Hybriddecoder entwickelt, um die Hybridinformationen von Kartenelementen (z. B. Punktposition, Elementform) in HIQuery zu codieren und eine Punktelementinteraktion durchzuführen, siehe Abbildung 2. Jede Schicht des Hybriddecoders umfasst Punktelementinteraktoren, Selbstaufmerksamkeit und FFN. Innerhalb des Punkt-Element-Interaktors ist ein gegenseitiger Interaktionsmechanismus implementiert, um den Austausch von Informationen auf Punkt- und Elementebene zu realisieren und die Lernverzerrung von Informationen auf einer Ebene zu vermeiden. Schließlich können die Ausgabepunktelemente von integrierter HIQuery direkt in die Punktkoordinaten, die Klasse und die Maske des Elements konvertiert werden. Darüber hinaus werden Punktelement-Konsistenzbeschränkungen vorgeschlagen, um die Konsistenz zwischen Informationen auf Punktebene und auf Elementebene zu verbessern.
Übersicht über das HIMap-Framework
Der Gesamtprozess von HIMap ist in Abbildung 3(a) dargestellt. HIMap ist mit einer Vielzahl luftgestützter Sensordaten kompatibel, beispielsweise RGB-Bildern von Multi-View-Kameras, Punktwolken von Lidar oder multimodalen Daten. Hier nehmen wir RGB-Bilder mit mehreren Ansichten als Beispiel, um die Funktionsweise von HIMap zu erklären.
BEV Feature Extractor ist ein Tool zum Extrahieren von BEV-Features aus RGB-Bildern mit mehreren Ansichten. Sein Kern besteht darin, den Backbone-Teil von 2D-Features mit mehreren Maßstäben aus jeder Perspektive zu extrahieren, den FPN-Teil von Features mit einem Maßstab durch Fusion und Verfeinerung von Features mit mehreren Maßstäben zu erhalten und das Modul zur Konvertierung von 2D-zu-BEV-Features zu verwenden, um 2D-Features in BEV abzubilden Merkmale. . Dieser Prozess trägt dazu bei, Bildinformationen in BEV-Merkmale umzuwandeln, die sich besser für die Verarbeitung und Analyse eignen, und verbessert so die Benutzerfreundlichkeit und Genauigkeit der Merkmale. Durch diese Methode können wir die Informationen in Multi-View-Bildern besser verstehen und nutzen, was eine stärkere Unterstützung für die nachfolgende Datenverarbeitung und Entscheidungsfindung bietet.
HIQuery: Um die Informationen von Kartenelementen auf Punkt- und Elementebene vollständig zu lernen, wird HIQuery eingeführt, um alle Elemente in der Karte darzustellen!
Hybrid-Decoder: Der Hybrid-Decoder erzeugt integrierte HIQuery durch iterative Interaktion von HIQuery Qh mit BEV-Funktionen X.
Das Ziel des Punktelement-Interaktors besteht darin, interaktiv Informationen von Kartenelementen auf Punkt- und Elementebene zu extrahieren und in HIQuery zu kodieren. Die Motivation für das Zusammenspiel der beiden Informationsebenen liegt in ihrer Komplementarität. Informationen auf Punktebene enthalten lokales Standortwissen, während Informationen auf Elementebene globales Form- und Semantikwissen bereitstellen. Diese Interaktion ermöglicht somit eine gegenseitige Verfeinerung lokaler und globaler Informationen von Kartenelementen.
In Anbetracht des ursprünglichen Unterschieds zwischen der Darstellung auf Punktebene und der Darstellung auf Elementebene, die sich jeweils auf lokale Informationen und globale Informationen konzentrieren, kann sich das Lernen von Darstellungen auf zwei Ebenen auch gegenseitig beeinträchtigen. Dies erhöht die Schwierigkeit der Informationsinteraktion und verringert die Wirksamkeit der Informationsinteraktion. Daher werden Punktelement-Konsistenzbeschränkungen eingeführt, um die Konsistenz zwischen den einzelnen Punktebenen- und Elementebeneninformationen zu verbessern, und die Unterscheidbarkeit von Elementen kann ebenfalls verbessert werden!
Vergleich der experimentellen Ergebnisse
Der Artikel führte Experimente mit dem NuScenes-Datensatz und dem Argoverse2-Datensatz durch!
Vergleich des SOTA-Modells auf dem nuScenes-Wertesatz:
Vergleich des SOTA-Modells auf dem Argoverse2-Wertesatz:
Vergleich mit dem SOTA-Modell unter Nuscenes Validierungssatz Multimodaldaten:
Weitere Ablationsexperimente:
Das obige ist der detaillierte Inhalt vonBesser als alle Methoden! HIMap: Durchgängige vektorisierte HD-Kartenkonstruktion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Einführung In den sich schnell entwickelnden Bereichen der künstlichen Intelligenz und der Verarbeitung künstlicher Intelligenz und natürlicher Sprache ist eine schnelle Technik von entscheidender Bedeutung. Zu seinen Techniken zeichnet sich die Kette des numerischen Denkens (CONR) als hochwirksame Methode zur Verbesserung der KI aus

Verschlossenen der Geheimnisse von Kaggle Enkelmeister: Top -Python -Bibliotheken enthüllt Kaggle, die führende Plattform für Datenwissenschaftswettbewerbe, bietet eine ausgewählte Gruppe von Elite -Darstellern: die Kaggle Enkelmeister. Diese Personen liefern konsequent Innova

Die Zukunft der Arbeit: Wie KI -PCs den Arbeitsplatz revolutionieren werden Die Integration der künstlichen Intelligenz (KI) in PCs - AI -PCs - stellt einen bedeutenden Sprung nach vorne in der Arbeitsplatztechnologie dar. AI -PCs, definiert als die Fusion von AI und

Detaillierte Erläuterung der Funktion Excel Freeze -Scheibe: Effizient große Datensätze verarbeiten Microsoft Excel ist eines der hervorragenden Tools zum Organisieren und Analysieren von Daten, und die Freeze -Bereichsfunktion ist eines seiner Höhepunkte. Mit dieser Funktion können Sie bestimmte Zeilen oder Spalten festlegen, damit sie beim Durchsuchen des Restes der Tabellenkalkulationen sichtbar bleiben und die Datenüberwachung und Vergleich vereinfachen. In diesem Artikel wird die Funktionalität der Excel -Gefrierentränen verwendet und einige praktische Tipps und Beispiele geben. Funktionsübersicht Das Freeze -Bereich von Excel hält bestimmte Zeilen oder Spalten sichtbar beim Scrollen durch große Datensätze und erleichtert die Überwachung und Vergleichen von Daten. Verbessern Sie die Navigationseffizienz, halten Sie die Titel sichtbar und vereinfachen Sie die Datenvergleiche in großen Tabellenkalkulationen. Bietet über die Registerkarte Ansicht und einfrieren

Navigieren Sie die Komplexität miteinander verbundener Daten: Neo4j gegen Amazon Neptun In der heutigen datenreichen Welt sind die miteinander verbundenen, miteinander verbundenen Informationen effizient zu verwalten. Während traditionelle Datenbanken relevant bleiben, haben sie oft mit Hi zu kämpfen

Das Segment von Meta alles Modell 2 (SAM-2): ein riesiger Sprung in Echtzeit-Bild- und Videosegmentierung Meta hat erneut die Grenzen der künstlichen Intelligenz mit SAM-2 überschritten, eine bahnbrechende Weiterentwicklung in der Computer Vision, die auf dem Impressive aufbaut

Verbesserung der digitalen Verbrauchererlebnisse mit KI: Ein datengesteuerter Ansatz Die digitale Landschaft ist sehr wettbewerbsfähig. In diesem Artikel wird untersucht, wie die künstliche Intelligenz (KI) Verbrauchererlebnisse auf digitalen Plattformen erheblich verbessert. Wir werden prüfen

Stabile Diffusion: Enthüllung der Kraft der Positionscodierung in der Erzeugung von Text-zu-Image Stellen Sie sich vor, Sie generieren atemberaubende, hochauflösende Bilder aus einfachen Textbeschreibungen. Dies ist die Kraft der stabilen Diffusion, ein hochmodernes Text-zu-Image-Modell


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),