Heim >Technologie-Peripheriegeräte >KI >Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

王林
王林nach vorne
2023-04-13 22:31:011504Durchsuche

Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

BEV Was genau ist Wahrnehmung? Auf welche Aspekte der Wahrnehmung von BEV achten sowohl die akademischen als auch die industriellen Kreise des autonomen Fahrens? Dieser Artikel verrät Ihnen die Antwort.

Im Bereich des autonomen Fahrens ist es ein Trend, dem Wahrnehmungsmodell eine leistungsstarke Darstellung aus der Vogelperspektive (BEV) erlernen zu lassen, und hat in diesem Jahr für Aufmerksamkeit gesorgt der Branche und der breiten akademischen Aufmerksamkeit. Im Vergleich zu den meisten früheren Modellen im Bereich des autonomen Fahrens, die auf der Ausführung von Aufgaben wie Erkennung, Segmentierung und Verfolgung in der Vorderansicht oder perspektivischen Ansicht basieren, ermöglicht die Darstellung aus der Vogelperspektive (BEV) dem Modell, verdeckte Fahrzeuge besser zu identifizieren und Hat Erleichtert die Entwicklung und Bereitstellung nachfolgender Module (z. B. Planung, Steuerung).

Es ist ersichtlich, dass die BEV-Wahrnehmungsforschung einen enormen potenziellen Einfluss auf den Bereich des autonomen Fahrens hat und langfristige Aufmerksamkeit und Investitionen von Wissenschaft und Industrie verdient ist BEV-Wahrnehmung? Was ist das? Auf welche Inhalte der BEV-Wahrnehmung achten akademische und industrielle Führungskräfte im Bereich autonomes Fahren? Dieser Artikel verrät Ihnen die Antwort durch BEVPerception Survey.

BEVPerception Survey ist Shanghai Artificial Intelligence Laboratory Autonomous Driving OpenDriveLab-Team und # 🎜 🎜#SenseTime Research InstituteDie praktische Tool-Präsentationsmethode des Gemeinschaftspapiers „Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe“, #🎜 🎜 #Es ist in zwei Hauptabschnitte unterteilt: die neueste Literaturrecherche auf Basis von BEVPercption und die Open-Source-BEV-Perception-Toolbox auf Basis von PyTorch.

Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

  • Papieradresse: https:/ /arxiv.org/abs/2209.05324
  • Projektadresse: https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
  • Zusammenfassende Interpretation, technische Interpretation

BEVPerception Survey Die neueste Literaturrecherchestudie umfasst hauptsächlich drei Teile - # 🎜🎜#

BEV-Kamera, BEV-Lidar und BEV-Fusion . BEV-Kamera stellt einen reinen oder visionszentrierten Algorithmus für die 3D-Objekterkennung oder -segmentierung von mehreren umgebenden Kameras dar. BEV-Lidar beschreibt die Erkennungs- oder Segmentierungsaufgabe von Punktwolkeneingaben. BEV-Fusion beschreibt die Erkennungs- oder Segmentierungsaufgabe von Eingabefusionsmechanismen mehrerer Sensoren wie Kameras, Lidar, globale Navigationssysteme, Odometrie, HD-Karten, CAN-Bus usw.

BEV Perception Toolbox ist für BEV-basierte Kameras. Bietet eine Plattform für die 3D-Objekterkennung und eine experimentelle Plattform für den Waymo-Datensatz, die manuelle Tutorials und Experimente mit kleinen Datensätzen ermöglicht.

Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

Abbildung 1: BEVPerception Survey Framework

Insbesondere BEV-Kamera stellt einen Algorithmus zur 3D-Objekterkennung oder -Segmentierung von mehreren umgebenden Kameras dar; BEV-Lidar stellt die Verwendung von Punktwolken als Eingabe zur Vervollständigung von Erkennungs- oder Segmentierungsaufgaben dar. Es nutzt die Ausgabe mehrerer Sensoren als Eingabe, wie z. B. Kameras, LiDAR, GNSS, Kilometerzähler, HD-Karte, CAN-Bus usw. #? 🎜 #Die Wahrnehmung der BEV-Kamera umfasst drei Teile: 2D-Feature-Extraktor, Ansichtstransformation und 3D-Decoder. Die folgende Abbildung zeigt das BEV-Kamerawahrnehmungsflussdiagramm. Bei der Ansichtstransformation gibt es zwei Möglichkeiten, 3D-Informationen zu kodieren: Die eine besteht darin, Tiefeninformationen aus 2D-Merkmalen vorherzusagen, und die andere darin, 2D-Merkmale aus dem 3D-Raum abzutasten.

Abbildung 2: BEV-Kamera-Wahrnehmungsflussdiagramm

Für den 2D-Feature-Extraktor gibt es viel Erfahrung in der 2D-Wahrnehmungsaufgabe, die in die 3D-Wahrnehmungsaufgabe übernommen werden kann, wie z Form des Hauptinterventionstrainings.

Das Ansichtskonvertierungsmodul ist ein ganz anderer Aspekt als das 2D-Wahrnehmungssystem. Wie in der Abbildung oben gezeigt, gibt es im Allgemeinen zwei Möglichkeiten, eine Ansichtstransformation durchzuführen: Eine ist die Transformation vom 3D-Raum in den 2D-Raum, die andere ist die Transformation vom 2D-Raum in den 3D-Raum. Diese beiden Transformationsmethoden verwenden entweder den 3D-Raum Vorkenntnisse der Physik im System oder Nutzung zusätzlicher 3D-Informationen zur Überwachung. Es ist erwähnenswert, dass nicht alle 3D-Wahrnehmungsmethoden über Ansichtstransformationsmodule verfügen. Beispielsweise erkennen einige Methoden Objekte im 3D-Raum direkt anhand von Features im 2D-Raum.

3D-Decoder empfängt Funktionen im 2D/3D-Raum und gibt 3D-Wahrnehmungsergebnisse aus. Die meisten 3D-Decoder basieren auf LiDAR-basierten Wahrnehmungsmodellen. Diese Methoden führen die Erkennung im BEV-Raum durch, es gibt jedoch immer noch einige 3D-Decoder, die Funktionen im 2D-Raum ausnutzen und die Lokalisierung von 3D-Objekten direkt regressieren.

BEV LiDAR

BEV Der allgemeine Prozess der LiDAR-Wahrnehmung umfasst hauptsächlich zwei Zweige, um Punktwolkendaten in eine BEV-Darstellung umzuwandeln. Die folgende Abbildung zeigt das BEV-Lidar-Erkennungsflussdiagramm. Der obere Zweig extrahiert Punktwolkenmerkmale im 3D-Raum, um genauere Erkennungsergebnisse zu liefern. Der untere Zweig extrahiert BEV-Merkmale im 2D-Raum und sorgt so für ein effizienteres Netzwerk. Zusätzlich zu punktbasierten Methoden, die auf rohen Punktwolken arbeiten, voxelbasierte Methoden, die Punkte in diskrete Gitter voxelisieren und durch die Diskretisierung kontinuierlicher 3D-Koordinaten eine effizientere Darstellung ermöglichen. Basierend auf der diskreten Voxeldarstellung können 3D-Faltung oder 3D-Sparse-Faltung zum Extrahieren von Punktwolkenmerkmalen verwendet werden. Abbildung 3: Flussdiagramm der BEV-Lidar-Erkennung Wissenschaft und Industrie . Die folgende Abbildung zeigt einen Vergleich der Flussdiagramme der PV- und BEV-Erkennung. Der Hauptunterschied zwischen den beiden ist das 2D-zu-3D-Konvertierungs- und Fusionsmodul. Im PV-fähigen Flussdiagramm werden die Ergebnisse verschiedener Algorithmen zunächst in den 3D-Raum umgewandelt und dann mithilfe einiger Vorkenntnisse oder manuell erstellter Regeln zusammengeführt. Im BEV-Wahrnehmungsflussdiagramm wird die PV-Feature-Map in die BEV-Perspektive konvertiert und dann im BEV-Raum zusammengeführt, um das Endergebnis zu erhalten, wodurch die Beibehaltung der ursprünglichen Feature-Informationen maximiert und übermäßiges manuelles Design vermieden wird.

Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

Abbildung 4: Flussdiagramm für PV-Erfassung (links) und BEV-Erfassung (rechts)

Für BEV-Erfassungsmodelle geeignete DatensätzeEs gibt viele Datensätze für BEV-Erfassungsaufgaben. Normalerweise besteht ein Datensatz aus verschiedenen Szenen, und jede Szene hat in verschiedenen Datensätzen eine unterschiedliche Länge. Die folgende Tabelle fasst die in der akademischen Gemeinschaft häufig verwendeten Datensätze zusammen. Wir können sehen, dass der Waymo-Datensatz vielfältigere Szenen und umfangreichere 3D-Erkennungsfeldanmerkungen aufweist als andere Datensätze.

Tabelle 1: Übersicht über BEV-SensordatensätzeVon Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

Allerdings gibt es derzeit keine von Waymo entwickelte Software für die BEV-Sensoraufgabe, die in der akademischen Gemeinschaft veröffentlicht wurde. Aus diesem Grund haben wir uns für eine Entwicklung basierend auf dem Waymo-Datensatz entschieden, in der Hoffnung, die Entwicklung von BEV-Wahrnehmungsaufgaben auf dem Waymo-Datensatz zu fördern.

Toolbox – BEV-Wahrnehmungs-Toolbox

BEVFormer ist eine häufig verwendete BEV-Wahrnehmungsmethode. Sie verwendet einen raumzeitlichen Transformator, um die vom Backbone-Netzwerk aus Multi-View-Eingaben extrahierten Merkmale in BEV-Merkmale umzuwandeln und dann die BEV-Merkmale in die Erkennung einzugeben Gehen Sie, um die endgültigen Testergebnisse zu erhalten. BEVFormer verfügt über zwei Funktionen. Er verfügt über eine präzise Konvertierung von 2D-Bildfunktionen in 3D-Funktionen und kann die extrahierten BEV-Funktionen auf verschiedene Erkennungsköpfe anwenden. Wir haben die Ansichtskonvertierungsqualität und die endgültige Erkennungsleistung von BEVFormer durch eine Reihe von Methoden weiter verbessert.

Nachdem wir mit BEVFormer++ den ersten PlatzCVPR 2022 Waymo Challenge gewonnen haben, haben wir Toolbox - BEV Perception Toolbox gestartet, indem wir einen vollständigen Satz benutzerfreundlicher Waymo Open Dataset-Datenverarbeitungstools bereitgestellt haben. Dies integriert eine Reihe von Methoden, die die Modellleistung erheblich verbessern können (einschließlich, aber nicht beschränkt auf Datenverbesserung, Erkennungsköpfe, Verlustfunktionen, Modellintegration usw.) und ist mit in diesem Bereich weit verbreiteten Open-Source-Frameworks wie mmdetection3d kompatibel und Detectron2. Im Vergleich zum grundlegenden Waymo-Datensatz optimiert und verbessert die BEV-Perception-Toolbox die Nutzungsfähigkeiten für die Verwendung durch verschiedene Arten von Entwicklern. Die folgende Abbildung zeigt ein Beispiel für die Verwendung der BEV-Awareness-Toolbox basierend auf dem Waymo-Datensatz. Abbildung 5: Toolbox-Nutzungsbeispiel basierend auf dem Waymo-Datensatz und eine ausführlichere ausführliche Diskussion. Eine umfassende Analyse der Literatur zur BEV-Erkennung deckt Kernthemen wie Tiefenschätzung, Ansichtstransformation, Sensorfusion, Domänenanpassung usw. ab und bietet eine detailliertere Erläuterung der Anwendung der BEV-Erkennung in industriellen Systemen.

Neben theoretischen Beiträgen bietet BEVPerception Survey auch eine sehr praktische Toolbox zur Verbesserung der kamerabasierten 3D-Vogelperspektive (BEV)-Objekterkennungsleistung, einschließlich einer Reihe von Strategien zur Verbesserung von Trainingsdaten und einem effizienten Encoder-Design Verlustfunktion Design, Testdatenverbesserung und Modellintegrationsstrategien usw. sowie die Implementierung dieser Techniken im Waymo-Datensatz. Wir hoffen, mehr Forschern dabei zu helfen, „Use and Take“ zu erkennen und den Forschern in der Branche des autonomen Fahrens mehr Komfort zu bieten. Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend

Wir hoffen, dass BEVPerception Survey Benutzern nicht nur dabei hilft, leistungsstarke BEV-Wahrnehmungsmodelle einfach zu nutzen, sondern auch ein guter Ausgangspunkt für Anfänger für den Einstieg in BEV-Wahrnehmungsmodelle wird. Wir sind bestrebt, die Grenzen der Forschung und Entwicklung im Bereich des autonomen Fahrens zu durchbrechen und freuen uns darauf, unsere Ansichten und Diskussionen mit der akademischen Gemeinschaft zu teilen, um das Anwendungspotenzial der Forschung im Bereich des autonomen Fahrens in der realen Welt kontinuierlich zu erkunden.

Das obige ist der detaillierte Inhalt vonVon Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen