Heim > Artikel > Technologie-Peripheriegeräte > Präzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign
Originaltitel: GraphAlign: Enhancing Accurate Feature Alignment by Graph Matching for Multi-Modal 3D Object Detection
Der Inhalt, der neu geschrieben werden muss, ist: Papierlink: https://arxiv.org/pdf/2310.08261.pdf
Autor Zugehörigkeit: Beijing Jiaotong University Hebei University of Science and Technology Tsinghua University
LiDAR und Kameras sind komplementäre Sensoren für die 3D-Zielerkennung beim autonomen Fahren. Die Untersuchung unnatürlicher Wechselwirkungen zwischen Punktwolken und Bildern ist jedoch eine Herausforderung, und der Schlüssel liegt darin, wie man die Merkmalsausrichtung heterogener Modalitäten durchführt. Derzeit erreichen viele Methoden die Merkmalsausrichtung nur durch Projektionskalibrierung und ignorieren das Problem der Genauigkeitsfehler bei der Koordinatenkonvertierung zwischen Sensoren, was zu einer suboptimalen Leistung führt. In diesem Artikel wird eine genauere Feature-Alignment-Strategie namens GraphAlign für die 3D-Objekterkennung durch Graph-Matching vorgeschlagen. Konkret verschmilzt dieser Artikel die Bildmerkmale des semantischen Segmentierungsencoders im Bildzweig mit den Punktwolkenmerkmalen des 3D-sparse CNN im LiDAR-Zweig. Um den Rechenaufwand zu reduzieren, verwendet dieser Artikel die Berechnung des euklidischen Abstands, um die Beziehung zum nächsten Nachbarn im Unterraum der Punktwolkenmerkmale zu erstellen. Durch die Projektionskalibrierung zwischen dem Bild und der Punktwolke werden die nächsten Nachbarn der Punktwolkenmerkmale auf die Bildmerkmale projiziert. Anschließend suchen wir nach einer geeigneteren Merkmalsausrichtung, indem wir den nächsten Nachbarn einer einzelnen Punktwolke mehreren Bildern zuordnen. Darüber hinaus bietet dieses Papier auch ein Selbstaufmerksamkeitsmodul, um das Gewicht wichtiger Beziehungen zu erhöhen und die Merkmalsausrichtung zwischen heterogenen Modalitäten zu optimieren. Im nuScenes-Benchmark wurde eine große Anzahl von Experimenten durchgeführt, um die Wirksamkeit und Effizienz des in diesem Artikel vorgeschlagenen GraphAlign zu beweisen. , um das Problem der Fehlausrichtung bei der multimodalen 3D-Objekterkennung zu lösen.
Song, Z., Wei , H., Bai, L., Yang, L., & Jia, C. (2023). GraphAlign: Verbesserung der präzisen Feature-Ausrichtung durch Graph-Matching für die multimodale 3D-Objekterkennung
Originallink: https://mp.weixin.qq.com/s/eN6THT2azHvoleT1F6MoSwDas obige ist der detaillierte Inhalt vonPräzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!