Maison  >  Article  >  Périphériques technologiques  >  Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

王林
王林avant
2023-12-14 16:51:58650parcourir

Compréhension personnelle de l'auteur

Ces dernières années, le modèle de diffusion a connu un grand succès dans les tâches de génération, et a naturellement été étendu aux tâches de détection de cible. Il modélise la détection de cible comme le passage des boîtes de bruit aux boîtes d'objets) processus de diffusion de débruitage. . Pendant la phase de formation, les boîtes cibles sont diffusées depuis les boîtes de vérité terrain vers des distributions aléatoires, et le modèle apprend comment inverser ce processus d'ajout de bruit aux boîtes de vérité terrain. Au cours de la phase d'inférence, le modèle affine progressivement un ensemble de boîtes cibles générées de manière aléatoire en résultats de sortie. Par rapport aux méthodes traditionnelles de détection d'objets, qui reposent sur un ensemble fixe de requêtes apprenables, 3DifFusionDet ne nécessite pas de requêtes apprenables pour la détection d'objets.

L'idée principale de 3DifFusionDet

Le framework 3DifFusionDet représente la détection de cible 3D comme un processus de diffusion débruitant d'une boîte 3D bruyante vers une boîte cible. Dans ce cadre, les boîtes de vérité terrain sont entraînées avec une diffusion à distribution aléatoire et le modèle apprend le processus de bruit inverse. Lors de l'inférence, le modèle affine progressivement un ensemble de cases générées aléatoirement. Dans le cadre de la stratégie d’alignement des fonctionnalités, la méthode de raffinement progressif peut apporter une contribution importante à la fusion lidar-caméra. Le processus de raffinement itératif fait également preuve d’une grande adaptabilité en appliquant le cadre à divers environnements de détection nécessitant différents niveaux de précision et de rapidité. KITTI est une référence en matière de reconnaissance de cibles de trafic réel. Un grand nombre d'expériences ont été menées sur KITTI, ce qui montre que par rapport aux premiers détecteurs, KITTI peut atteindre de bonnes performances

Les principales contributions de 3DifFusionDet sont les suivantes :

  • Représentation de Détection de cible 3D Pour le processus de débruitage génératif, 3DifFusionDet est proposé, qui est la première recherche à appliquer un modèle de diffusion à la détection de cible 3D.
  • Etudier la stratégie optimale d'alignement de fusion Caméra-LiDAR dans le cadre du processus de débruitage génératif, et proposer 2 stratégies d'alignement de fusion de branches pour utiliser les informations complémentaires fournies par les deux modalités.
  • Réalisation d'expériences approfondies sur le benchmark KITTI. Par rapport aux méthodes existantes bien conçues, 3DifFusionDet obtient des résultats compétitifs, démontrant la promesse des modèles de diffusion dans les tâches de détection d'objets 3D.

Utilisation de LiDAR-Camera Fusion pour la détection d'objets 3D

Pour la détection d'objets 3D, la caméra et le LiDAR sont deux types de capteurs complémentaires. Les capteurs LiDAR se concentrent sur la localisation 3D et fournissent des informations riches sur les structures 3D, tandis que la caméra fournit des informations sur les couleurs à partir desquelles de riches caractéristiques sémantiques peuvent être dérivées. De nombreux efforts ont été déployés pour détecter avec précision les objets 3D en fusionnant les données des caméras et du LiDAR. Les méthodes de pointe sont principalement basées sur des détecteurs d'objets 3D basés sur LiDAR et s'efforcent d'incorporer des informations d'image dans différentes étapes du processus de détection LiDAR, car les performances des méthodes de détection basées sur LiDAR sont nettement meilleures que celles des caméras. méthodes basées. En raison de la complexité des systèmes de détection basés sur le lidar et sur les caméras, la combinaison des deux modes augmentera inévitablement les coûts de calcul et les délais d'inférence. Par conséquent, le problème de la fusion efficace des informations multimodales demeure.

Modèle de diffusion

Le modèle de diffusion est un modèle génératif qui déconstruit progressivement les données observées en introduisant du bruit et restaure les données d'origine en inversant le processus. Les modèles de diffusion et l'appariement des scores de débruitage sont connectés via le modèle probabiliste de diffusion de débruitage (Ho, Jain et Abbeel 2020a), qui a récemment suscité un intérêt pour les applications de vision par ordinateur. Il a été appliqué dans de nombreux domaines, tels que la génération de graphes, la compréhension du langage, l'apprentissage robuste et la modélisation de données temporelles.
Les modèles de diffusion ont obtenu un grand succès dans la génération et la synthèse d'images. Certains travaux pionniers adoptent des modèles de diffusion pour les tâches de segmentation d'images. Par rapport à ces domaines, leur potentiel pour la détection d’objets n’a pas encore été pleinement exploité. Les approches précédentes de détection d’objets utilisant des modèles de diffusion se limitaient aux boîtes englobantes 2D. Par rapport à la détection 2D, la détection 3D fournit des informations plus riches sur l'espace cible et peut permettre une perception précise de la profondeur et une compréhension du volume, ce qui est crucial pour des applications telles que la conduite autonome, où il est nécessaire d'identifier la distance précise des véhicules environnants et la direction sont des aspects importants. pour des applications telles que la conduite autonome.

Conception du réseau de 3DifFusionDet

La figure 1 montre l'architecture globale de 3DifFusionDet. Il accepte les entrées multimodales, notamment les images RVB et les nuages ​​de points. En divisant l'ensemble du modèle en parties d'extraction de caractéristiques et de décodage de caractéristiques, comme avec DiffusionDet, il serait difficile d'appliquer directement aux caractéristiques 3D d'origine à chaque étape d'itération. La partie d'extraction de caractéristiques n'est exécutée qu'une seule fois pour extraire les représentations de caractéristiques profondes de l'entrée X d'origine, tandis que le composant de décodage de caractéristiques est conditionné sur cette caractéristique profonde et entraîné pour tirer progressivement des prédictions de boîtes à partir de boîtes bruyantes. Pour utiliser pleinement les informations complémentaires fournies par les deux modalités, l'encodeur et le décodeur de chaque modalité sont séparés. De plus, le décodeur d'image et le décodeur de nuage de points sont entraînés séparément pour affiner les caractéristiques 2D et 3D à l'aide d'un modèle de diffusion pour générer respectivement des boîtes de bruit. Quant à la connexion de ces deux branches de fonctionnalités, leur simple connexion entraînera un écrêtage d'informations, entraînant une dégradation des performances. À cette fin, un mécanisme d’attention croisée multi-têtes est introduit pour aligner profondément ces caractéristiques. Ces caractéristiques alignées sont entrées dans la tête de détection pour prédire la vraie valeur finale sans générer de bruit.

Pour l'encodeur de nuage de points, des méthodes basées sur les voxels sont utilisées pour l'extraction et des méthodes basées sur le parc clairsemé pour le traitement. Les méthodes basées sur les voxels convertissent les points LiDAR en voxels. Par rapport à d'autres séries de méthodes d'extraction d'entités ponctuelles (telles que les méthodes basées sur des points), ces méthodes discrétisent les nuages ​​de points en grilles 3D équidistantes, réduisant ainsi les besoins en mémoire tout en conservant autant que possible les informations de forme 3D d'origine. La méthode de traitement basée sur la parcimonie aide en outre le réseau à améliorer l'efficacité des calculs. Ces avantages compensent les exigences de calcul relativement élevées des modèles de diffusion.

Par rapport aux fonctionnalités 2D, les fonctionnalités 3D contiennent des dimensions supplémentaires, ce qui rend l'apprentissage plus difficile. Dans cet esprit, en plus d'extraire les caractéristiques de la modalité d'origine, un chemin de fusion est ajouté qui ajoute les caractéristiques de l'image extraite en tant qu'entrée supplémentaire à l'encodeur de points, facilitant ainsi l'échange d'informations et tirant parti de l'apprentissage de sources plus diverses. Une stratégie PointFusion est utilisée, où les points du capteur LiDAR sont projetés sur le plan image. La concaténation des caractéristiques de l'image et des points correspondants est ensuite traitée conjointement par l'architecture VoxelNet.

Décodeur de fonctionnalités. Les caractéristiques d'image extraites et les caractéristiques ponctuelles extraites sont utilisées comme entrées dans les décodeurs d'images et de points correspondants. Chaque décodeur combine également les entrées d'une boîte à bruit créée de manière unique ou et apprend à affiner respectivement les caractéristiques 2D et 3D, en plus des caractéristiques extraites correspondantes.

Inspiré de Sparse RCNN, le décodeur d'image reçoit les entrées d'une collection de boîtes de proposition 2D et recadre les caractéristiques RoI à partir de la carte de caractéristiques créée par l'encodeur d'image. Le décodeur de points reçoit les entrées d'une collection de boîtes de proposition 3D et recadre les caractéristiques RoI à partir de la carte de caractéristiques créée par l'encodeur d'image. Pour le décodeur de points, l'entrée est un ensemble de boîtes de proposition 3D pour recadrer les caractéristiques RoI 3D à partir de la carte de caractéristiques générée par l'encodeur de points

Cross Attention Module. Après avoir décodé les deux branches de fonctionnalités, un moyen de les combiner est nécessaire. Une approche simple consiste simplement à connecter les deux branches de fonctionnalités en les connectant. Cette méthode semble trop grossière et peut entraîner un cisaillement des informations dans le modèle, entraînant une dégradation des performances. Par conséquent, un mécanisme d’attention croisée multi-têtes est introduit pour aligner et affiner en profondeur ces caractéristiques, comme le montre la figure 1. Plus précisément, la sortie du décodeur de points est traitée comme une source de k et v, tandis que la sortie du décodeur d'image est projetée sur q.

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Résultats expérimentaux

Expériences menées sur le benchmark de détection d'objets 3D KITTI. Suivant le protocole d'évaluation KITTI standard pour mesurer les performances de détection (IoU = 0,7), le tableau 1 montre le score de précision moyenne (mAP) de la méthode 3DifFusionDet par rapport aux méthodes de pointe de l'ensemble de validation KITTI. Rapporte les performances de , en suivant [diffusionDet, difficileist] et en mettant en gras les deux modèles les plus performants pour chaque tâche.

Selon les résultats du tableau 1, la méthode de cette étude montre une amélioration significative des performances par rapport à la ligne de base. Lorsque D = 4, la méthode est capable de surpasser la plupart des modèles de base dans un temps d'inférence plus court. En augmentant davantage D à 8, les meilleures performances sont obtenues parmi tous les modèles, même si le temps d'inférence est plus long. Cette flexibilité révèle que cette méthode a un large éventail d'applications potentielles

Expériences d'ablationTout d'abord, la nécessité de maintenir les branches d'alignement de l'image RoI et la fusion des fonctionnalités de l'encodeur est démontrée. Pour concevoir un détecteur d'objets 3D à partir d'une caméra et d'un LiDAR à l'aide de modèles de diffusion, l'approche la plus simple devrait consister à appliquer directement les boîtes 3D bruyantes générées en entrée aux caractéristiques 3D fusionnées. Cependant, cette approche peut souffrir d'un cisaillement des informations, entraînant une dégradation des performances, comme le montre le tableau 2. En utilisant cela, en plus de placer le nuage de points RoIAlign sous les fonctionnalités 3D encodées, nous créons également une deuxième branche qui place l'image RoIAlign sous les fonctionnalités 2D encodées. Les performances considérablement améliorées suggèrent que les informations complémentaires fournies par les deux modes peuvent être mieux exploitées.

Ensuite, nous analyserons l'impact des différentes stratégies de fusion : étant donné les fonctionnalités de représentation 2D et 3D apprises, comment pouvons-nous les combiner plus efficacement. Par rapport aux fonctionnalités 2D, les fonctionnalités 3D ont une dimension supplémentaire, ce qui rend le processus d'apprentissage plus difficile. Nous ajoutons un chemin de flux d'informations depuis les caractéristiques de l'image vers les caractéristiques ponctuelles en projetant les points du capteur LiDAR sur les caractéristiques de l'image et en les concaténant avec les points correspondants pour être traités conjointement. Il s'agit de l'architecture VoxelNet. Comme le montre le tableau 3, cette stratégie de fusion présente de grands avantages pour la précision de la détection

L'autre partie qui doit être fusionnée est la connexion des deux branches de fonctionnalités après le décodage. Ici, un mécanisme d’attention croisée à plusieurs têtes est appliqué pour aligner et affiner en profondeur ces fonctionnalités. En plus de cela, des méthodes plus directes telles que l'utilisation d'opérations de concaténation, d'opérations de sommation, d'opérations de produit direct et l'utilisation de perceptrons multicouches (MLP) ont également été étudiées. Les résultats sont présentés dans le tableau 4. Parmi eux, le mécanisme d'attention croisée présente les meilleures performances, avec presque la même vitesse d'entraînement et d'inférence.

Étudiez le compromis entre précision et vitesse d'inférence. L'impact du choix de différentes zones de proposition et D est illustré en comparant la précision de la détection 3D et les images par seconde (FPS). Le nombre de boîtes de proposition est choisi entre 100 et 300, tandis que D est choisi entre 1, 4 et 8. La durée d'exécution est évaluée sur un seul GPU NVIDIA RTX A6000 avec une taille de lot de 1. Il a été constaté que l'augmentation du nombre de boîtes de propositions de 100 à 300 entraînait des gains de précision significatifs avec des coûts de latence négligeables (1,3 FPS contre 1,2 FPS). D’un autre côté, une meilleure précision de détection conduit à un temps d’inférence plus long. Lorsque vous changez D de 1 à 8, la précision de détection 3D augmente de nette (Facile : 87,1 mAP à 90,5 mAP) à relativement lentement (Facile : 90,5 AP à 91,3 mAP), tandis que les FPS continuent de diminuer.

Recherche de cas et travaux futursSur la base de ses propriétés uniques, cet article traite des utilisations potentielles de 3DifFusionDet. De manière générale, une inférence précise, robuste et en temps réel sont trois exigences pour les tâches de détection d'objets. Dans le domaine de la perception des voitures autonomes, les modèles de perception sont particulièrement sensibles aux exigences en temps réel, étant donné que les voitures roulant à grande vitesse doivent consacrer plus de temps et de distance pour ralentir ou changer de direction en raison de l'inertie. Plus important encore, afin de garantir une expérience de conduite confortable, la voiture doit rouler aussi doucement que possible avec la plus petite valeur absolue d'accélération dans un souci de sécurité. L’un de ses principaux avantages est une conduite plus douce par rapport à d’autres produits de voiture autonome similaires. Pour ce faire, les voitures autonomes doivent commencer à réagir rapidement, qu’il s’agisse d’une accélération, d’une décélération ou d’un virage. Plus la voiture réagit rapidement, plus elle dispose de marge de manœuvre et de réglages ultérieurs. Ceci est plus important que d'obtenir d'abord la classification ou l'emplacement le plus précis de la cible détectée : lorsque la voiture commence à réagir, il reste encore du temps et de la distance pour ajuster son comportement, ce qui peut être utilisé pour prendre d'autres décisions de manière plus précise. Extrapolés, les résultats sont ensuite utilisés pour affiner le comportement de conduite de la voiture.

Le contenu réécrit est le suivant : selon les résultats du tableau 4, lorsque la taille du pas d'inférence est petite, notre modèle 3DifFusionDet peut effectuer une inférence rapidement et obtenir une précision relativement élevée. Cette perception initiale est suffisamment précise pour permettre à la voiture autonome de développer de nouvelles réponses. À mesure que le nombre d’étapes d’inférence augmente, nous sommes en mesure de générer des détections d’objets plus précises et d’affiner davantage nos réponses. Cette approche de détection progressive est idéale pour notre tâche. De plus, puisque notre modèle peut ajuster le nombre de boîtes de proposition lors de l'inférence, nous pouvons exploiter les informations préalables obtenues par petites étapes pour optimiser le nombre de boîtes de proposition en temps réel. Selon les résultats du tableau 4, les performances selon différents cadres de propositions a priori sont également différentes. Par conséquent, le développement de tels détecteurs adaptatifs est un travail prometteur

À l'exception des voitures autonomes, le modèle de cet article correspond essentiellement à tout scénario réel nécessitant un temps d'inférence court dans un espace de réaction continu, en particulier lorsque le détecteur est basé sur In la scène où les résultats de détection se déplacent. Bénéficiant des propriétés du modèle de diffusion, 3DifFusionDet peut trouver rapidement une région d'intérêt presque précise dans l'espace réel, déclenchant ainsi le démarrage de nouvelles opérations et l'auto-optimisation de la machine. Les perceptrons ultérieurs de plus haute précision affinent davantage le fonctionnement de la machine. Afin de déployer des modèles dans ces détecteurs de mouvement, une question ouverte concerne les stratégies permettant de combiner les informations d'inférence entre les inférences antérieures à des étapes plus grandes et les inférences plus récentes à des étapes plus petites, et c'est une autre question ouverte.

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Résumé

Cet article présente un nouveau détecteur d'objets 3D appelé 3DifFusionDet, doté de puissantes capacités de fusion LiDAR et caméra. En formulant la détection d'objets 3D comme un processus de débruitage génératif, il s'agit du premier travail à appliquer des modèles de diffusion à la détection d'objets 3D. Dans le contexte de la génération d'un cadre de processus de débruitage, cette étude explore les stratégies d'alignement de fusion lidar de caméra les plus efficaces et propose une stratégie d'alignement de fusion pour exploiter pleinement les informations complémentaires fournies par les deux modes. Comparé aux détecteurs matures, 3DifFusionDet fonctionne bien, démontrant les larges perspectives d'application des modèles de diffusion dans les tâches de détection d'objets. Ses résultats d'apprentissage puissants et son modèle de raisonnement flexible lui confèrent de larges utilisations potentielles

Tout diffuser ? 3DifFusionDet : le modèle de diffusion entre dans la détection de cibles 3D LV fusion !

Lien original : https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer