Maison >Périphériques technologiques >IA >OccFusion : Un framework de fusion multi-capteurs simple et efficace pour Occ (Performance SOTA)

OccFusion : Un framework de fusion multi-capteurs simple et efficace pour Occ (Performance SOTA)

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2024-03-08 11:50:03857parcourir

Une compréhension globale des scènes 3D est cruciale dans la conduite autonome, et les récents modèles de prédiction sémantique d'occupation 3D ont relevé avec succès le défi consistant à décrire des objets du monde réel avec différentes formes et catégories. Cependant, les méthodes de prévision d’occupation 3D existantes s’appuient fortement sur les images de caméras panoramiques, ce qui les rend sensibles aux changements d’éclairage et de conditions météorologiques. En intégrant les capacités de capteurs supplémentaires tels que le lidar et le radar à vision panoramique, notre cadre améliore la précision et la robustesse de la prévision d'occupation, ce qui se traduit par des performances optimales sur le benchmark nuScenes. De plus, des expériences approfondies sur l'ensemble de données nuScene, y compris des scènes nocturnes et pluvieuses difficiles, confirment les performances supérieures de notre stratégie de fusion de capteurs sur différentes plages de détection.

Lien de l'article : https://arxiv.org/pdf/2403.01644.pdf

Nom de l'article : OccFusion : Un cadre de fusion multi-capteurs simple et efficace pour la prévision d'occupation 3D

Les principales contributions de cet article sont résumées comme suit :

Un cadre de fusion multi-capteurs est proposé pour intégrer les informations de caméra, lidar et radar afin d'effectuer des tâches de prédiction sémantique d'occupation 3D.
Dans la tâche de prédiction d'occupation sémantique 3D, notre méthode est comparée à d'autres algorithmes de pointe (SOTA) pour démontrer les avantages de la fusion multi-capteurs.
Des études d'ablation approfondies ont été menées pour évaluer les gains de performances obtenus par différentes combinaisons de capteurs dans des conditions d'éclairage et météorologiques difficiles telles que la nuit et la pluie.
Une étude approfondie a été menée pour analyser l'impact des facteurs de portée perceptuelle sur les performances de notre framework dans les tâches de prédiction d'occupation sémantique 3D, en considérant diverses combinaisons de capteurs et des scénarios difficiles !

Aperçu de la structure du réseau

L'architecture globale d'OccFusion est la suivante. Tout d’abord, les images en vue panoramique sont entrées dans une structure 2D pour extraire des caractéristiques multi-échelles. Par la suite, la transformation de la vue est effectuée à chaque échelle pour obtenir les caractéristiques BEV globales et le volume de caractéristiques 3D locales à chaque niveau. Les nuages de points 3D générés par le lidar et le radar surround sont également introduits dans le réseau fédérateur 3D pour générer des quantités de caractéristiques 3D locales multi-échelles et des caractéristiques BEV globales. Les modules de fusion dynamique 3D/2D à chaque niveau combinent les capacités des caméras et du lidar/radar. Après cela, les caractéristiques BEV globales fusionnées et le volume de caractéristiques 3D locales à chaque niveau sont introduits dans la fusion d'attention globale-locale pour générer le volume 3D final à chaque échelle. Enfin, le volume 3D à chaque niveau est suréchantillonné et connecté avec un mécanisme de supervision multi-échelle.