Heim >Technologie-Peripheriegeräte >KI >Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

PHPznach vorne: 2024-04-19 16:01:24533Durchsuche

Der Autor persönlich versteht

Eine der Grundaufgaben des autonomen Fahrens ist die dreidimensionale Zielerkennung, und viele Methoden werden mittlerweile auf Basis von Multisensor-Fusionsmethoden implementiert. Warum ist also eine Multisensorfusion erforderlich? Ob Lidar- und Kamerafusion oder Millimeterwellenradar- und Kamerafusion, der Hauptzweck besteht darin, die komplementäre Verbindung zwischen Punktwolken und Bildern zu nutzen, um die Genauigkeit der Zielerkennung zu verbessern. Mit der kontinuierlichen Anwendung der Transformer-Architektur im Bereich Computer Vision haben auf Aufmerksamkeitsmechanismen basierende Methoden die Genauigkeit der Fusion zwischen mehreren Sensoren verbessert. Die beiden gemeinsamen Arbeiten basieren auf dieser Architektur und schlagen neuartige Fusionsmethoden vor, um die nützlichen Informationen ihrer jeweiligen Modalitäten besser zu nutzen und eine bessere Fusion zu erreichen.

TransFusion:

Hauptbeitrag

Lidar und Kamera sind zwei wichtige dreidimensionale Zielerkennungssensoren beim autonomen Fahren. Bei der Sensorfusion stehen sie jedoch hauptsächlich vor dem Problem der geringen Erkennungsgenauigkeit, die durch schlechte Bildstreifen verursacht wird Bedingungen. . Die punktbasierte Fusionsmethode besteht darin, Lidar und Kameras durch harte Assoziation zu verschmelzen, was zu einigen Problemen führt: a) Durch einfaches Zusammenfügen von Punktwolken- und Bildmerkmalen wird die Erkennungsleistung bei Vorhandensein von Bildmerkmalen geringer Qualität erheblich beeinträchtigt ;b) Das Finden harter Korrelationen zwischen spärlichen Punktwolken und Bildern verschwendet hochwertige Bildmerkmale und ist schwer auszurichten. Um dieses Problem zu lösen, wird eine Soft-Assoziationsmethode vorgeschlagen. Bei dieser Methode werden Lidar und Kamera als zwei unabhängige Detektoren behandelt, die miteinander kooperieren und die Vorteile der beiden Detektoren voll ausnutzen. Zunächst wird ein herkömmlicher Objektdetektor verwendet, um Objekte zu erkennen und Begrenzungsrahmen zu generieren. Anschließend werden die Begrenzungsrahmen und Punktwolken abgeglichen, um eine Bewertung dafür zu erhalten, welchem Begrenzungsrahmen jeder Punkt zugeordnet ist. Abschließend werden die den Randkästen entsprechenden Bildmerkmale mit den durch die Punktwolke generierten Merkmalen verschmolzen. Mit dieser Methode kann der durch schlechte Bildstreifenbedingungen verursachte Rückgang der Erkennungsgenauigkeit wirksam vermieden werden. Gleichzeitig wird in diesem Artikel TransFusion vorgestellt, ein Fusionsframework für Lidar und Kameras, um das Korrelationsproblem zwischen den beiden Sensoren zu lösen. Die Hauptbeiträge sind wie folgt:

Schlagen Sie ein transformatorbasiertes 3D-Erkennungsfusionsmodell von Lidar und Kamera vor, das eine hervorragende Robustheit gegenüber schlechter Bildqualität und Sensorfehlausrichtung zeigt;

Führt mehrere Methoden zur Objektabfrage ein. Einfache, aber effektive Anpassungen zur Verbesserung die Qualität der anfänglichen Begrenzungsrahmenvorhersagen für die Bildfusion und ein bildgesteuertes Abfrageinitialisierungsmodul, das für den Umgang mit Objekten entwickelt wurde, die in Punktwolken schwer zu erkennen sind
implementiert nicht nur eine erweiterte 3D-Erkennung in der Leistung von nuScenes und erweitert das Modell auch um dreidimensionale Trackingaufgaben erfolgreich gelöst und gute Ergebnisse erzielt.

Detaillierte Modulerklärung

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren? Abbildung 1 Das Gesamtgerüst von TransFusion

Um die oben genannten Bildeintragsunterschiede und Korrelationsprobleme zwischen verschiedenen Sensoren zu lösen, wird ein Transformer-basiertes Fusionsgerüst – TransFusion – vorgeschlagen . Das Modell basiert auf standardmäßigen 3D- und 2D-Backbone-Netzwerken, um LiDAR BEV-Funktionen und Bildfunktionen zu extrahieren, und besteht dann aus zwei Schichten von Transformer-Decodern: Der Decoder der ersten Ebene verwendet spärliche Punktwolken, um anfängliche Begrenzungsrahmen zu generieren; Layer Die Objektabfrage wird mit der Bildmerkmalsabfrage kombiniert, um bessere Erkennungsergebnisse zu erzielen. Der räumliche Modulationsaufmerksamkeitsmechanismus (SMCA) und die bildgesteuerte Abfragestrategie werden ebenfalls eingeführt, um die Erkennungsgenauigkeit zu verbessern. Durch die Erkennung dieses Modells können bessere Bildmerkmale und Erkennungsgenauigkeit erzielt werden.