Heim >Technologie-Peripheriegeräte >KI >Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

王林nach vorne: 2023-10-27 11:17:041108Durchsuche

Originaltitel: GraphAlign: Enhancing Accurate Feature Alignment by Graph Matching for Multi-Modal 3D Object Detection

Der Inhalt, der neu geschrieben werden muss, ist: Papierlink: https://arxiv.org/pdf/2310.08261.pdf

Autor Zugehörigkeit: Beijing Jiaotong University Hebei University of Science and Technology Tsinghua University

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Thesisidee:

LiDAR und Kameras sind komplementäre Sensoren für die 3D-Zielerkennung beim autonomen Fahren. Die Untersuchung unnatürlicher Wechselwirkungen zwischen Punktwolken und Bildern ist jedoch eine Herausforderung, und der Schlüssel liegt darin, wie man die Merkmalsausrichtung heterogener Modalitäten durchführt. Derzeit erreichen viele Methoden die Merkmalsausrichtung nur durch Projektionskalibrierung und ignorieren das Problem der Genauigkeitsfehler bei der Koordinatenkonvertierung zwischen Sensoren, was zu einer suboptimalen Leistung führt. In diesem Artikel wird eine genauere Feature-Alignment-Strategie namens GraphAlign für die 3D-Objekterkennung durch Graph-Matching vorgeschlagen. Konkret verschmilzt dieser Artikel die Bildmerkmale des semantischen Segmentierungsencoders im Bildzweig mit den Punktwolkenmerkmalen des 3D-sparse CNN im LiDAR-Zweig. Um den Rechenaufwand zu reduzieren, verwendet dieser Artikel die Berechnung des euklidischen Abstands, um die Beziehung zum nächsten Nachbarn im Unterraum der Punktwolkenmerkmale zu erstellen. Durch die Projektionskalibrierung zwischen dem Bild und der Punktwolke werden die nächsten Nachbarn der Punktwolkenmerkmale auf die Bildmerkmale projiziert. Anschließend suchen wir nach einer geeigneteren Merkmalsausrichtung, indem wir den nächsten Nachbarn einer einzelnen Punktwolke mehreren Bildern zuordnen. Darüber hinaus bietet dieses Papier auch ein Selbstaufmerksamkeitsmodul, um das Gewicht wichtiger Beziehungen zu erhöhen und die Merkmalsausrichtung zwischen heterogenen Modalitäten zu optimieren. Im nuScenes-Benchmark wurde eine große Anzahl von Experimenten durchgeführt, um die Wirksamkeit und Effizienz des in diesem Artikel vorgeschlagenen GraphAlign zu beweisen. , um das Problem der Fehlausrichtung bei der multimodalen 3D-Objekterkennung zu lösen.

In diesem Artikel werden die Module Graph Feature Alignment (GFA) und Self-Attention Feature Alignment (SAFA) vorgeschlagen, um eine präzise Ausrichtung von Bildmerkmalen und Punktwolkenmerkmalen zu erreichen, wodurch Punktwolken und Merkmalsausrichtung zwischen Bildmodalitäten weiter verbessert und dadurch die Erkennungsgenauigkeit verbessert werden können . Durch die Durchführung von Experimenten mit zwei Benchmarks, KITTI und nuScenes, beweisen wir, dass GraphAlign die Genauigkeit der Punktwolkenerkennung effektiv verbessern kann, insbesondere bei der Zielerkennung über große Entfernungen.

Netzwerkdesign:

Abbildung 1. Funktionen Vergleich von Ausrichtungsstrategien

(a) Projektionsbasierte Methoden können schnell Beziehungen zwischen Modalmerkmalen herstellen, können jedoch aufgrund von Sensorfehlern unter einer Fehlausrichtung leiden. (b) Aufmerksamkeitsbasierte Methoden behalten semantische Informationen durch Lernen der Ausrichtung, sind jedoch rechenintensiv. (c) Das in diesem Artikel vorgeschlagene GraphAlign verwendet eine graphbasierte Merkmalsausrichtung, um sinnvollere Ausrichtungen zwischen Modalitäten abzugleichen, wodurch der Rechenaufwand reduziert und die Genauigkeit verbessert wird.

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Abbildung 2. Das Framework von GraphAlign.

Auf Chinesisch wie folgt umgeschrieben: Es besteht aus dem Modul „Graph Feature Alignment“ (GFA) und dem Modul „Self-Attention Feature Alignment“ (SAFA). Das GFA-Modul empfängt Bild- und Punktwolkenmerkmale als Eingabe, verwendet eine Projektionskalibrierungsmatrix, um 3D-Positionen in 2D-Pixelpositionen umzuwandeln, erstellt lokale Nachbarschaftsinformationen, um nächste Nachbarn zu finden, und kombiniert Bild- und Punktwolkenmerkmale. Das SAFA-Modul modelliert die Kontextbeziehung zwischen K nächsten Nachbarn durch den Selbstaufmerksamkeitsmechanismus, um die Bedeutung zusammengeführter Merkmale zu erhöhen, und wählt schließlich die repräsentativsten Merkmale aus

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Abbildung 3. GFA-Verarbeitungsablauf

(a) Sensorgenauigkeit Fehler, der zu einer Fehlausrichtung führt. (b) GFA stellt Nähebeziehungen durch Diagramme in Punktwolkenmerkmalen her. (c) Dieser Artikel projiziert Punktwolkenmerkmale auf Bildmerkmale und ermittelt die K nächsten Nachbarn von Bildmerkmalen. (d) In diesem Artikel wird eine Eins-zu-viele-Fusion durchgeführt, insbesondere durch die Fusion jedes einzelnen Punktwolkenmerkmals mit K benachbarten Bildmerkmalen, um eine bessere Ausrichtung zu erreichen.

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Abbildung 4. SAFA-Modulprozess

Wir haben die Head- und Max-Module vereinfacht. Der Zweck des SAFA-Moduls besteht darin, die globalen Kontextinformationen zwischen K-Nachbarn zu verbessern, um die Darstellung fusionierter Features zu verbessern

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Experimentelle Ergebnisse:

Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign

Zitat:

Song, Z., Wei , H., Bai, L., Yang, L., & Jia, C. (2023). GraphAlign: Verbesserung der präzisen Feature-Ausrichtung durch Graph-Matching für die multimodale 3D-Objekterkennung

Originallink: https://mp.weixin.qq.com/s/eN6THT2azHvoleT1F6MoSw

Das obige ist der detaillierte Inhalt vonPräzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Object for cnn https 传感器

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Verwendung einer suchverstärkten Generierungstechnologie zur Lösung des Halluzinationsproblems künstlicher IntelligenzNächster Artikel：Verwendung einer suchverstärkten Generierungstechnologie zur Lösung des Halluzinationsproblems künstlicher Intelligenz

In Verbindung stehende Artikel

Mehr sehen