Maison >Périphériques technologiques >IA >Article exceptionnel de l'ICRA 2022 : En convertissant des images 2D de conduite autonome en vue à vol d'oiseau, la précision de la reconnaissance du modèle augmente de 15 %

Article exceptionnel de l'ICRA 2022 : En convertissant des images 2D de conduite autonome en vue à vol d'oiseau, la précision de la reconnaissance du modèle augmente de 15 %

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-04-09 19:51:141275parcourir

Pour de nombreuses tâches de conduite autonome, il est plus facile de les réaliser dans une perspective descendante, cartographique ou à vol d'oiseau (BEV). Étant donné que de nombreux sujets de conduite autonome sont limités au plan du sol, une vue de dessus est une représentation de faible dimension plus pratique et est idéale pour la navigation, capturant les obstacles et les dangers pertinents. Pour des scénarios tels que la conduite autonome, des cartes BEV sémantiquement segmentées doivent être générées sous forme d'estimations instantanées pour gérer les objets et les scènes en mouvement libre qui ne sont visités qu'une seule fois.

Pour déduire des cartes BEV à partir d'images, il faut déterminer la correspondance entre les éléments de l'image et leurs positions dans l'environnement. Certaines recherches antérieures ont utilisé des cartes de profondeur denses et des cartes de segmentation d'images pour guider ce processus de conversion, et d'autres recherches ont étendu la méthode d'analyse implicite de la profondeur et de la sémantique. Certaines études exploitent les a priori géométriques de la caméra mais n'apprennent pas explicitement l'interaction entre les éléments de l'image et les plans BEV.

Dans un article récent, des chercheurs de l'Université de Surrey ont introduit un mécanisme d'attention pour convertir des images 2D de conduite autonome en vue à vol d'oiseau, améliorant ainsi la précision de reconnaissance du modèle de 15 %. Cette recherche a remporté le prix Outstanding Paper Award lors de la conférence ICRA 2022 qui s’est terminée il n’y a pas si longtemps. " Problème de conversion Image-to-World"

Article exceptionnel de lICRA 2022 : En convertissant des images 2D de conduite autonome en vue à vol doiseau, la précision de la reconnaissance du modèle augmente de 15 % , dont le but est d'apprendre l'alignement entre les lignes de balayage verticales dans l'image et les rayons polaires dans le BEV. Cette géométrie projective est donc implicite au réseau.

Dans le modèle d'alignement, les chercheurs ont adopté Transformer, une structure de prédiction de séquence basée sur l'attention

Article exceptionnel de lICRA 2022 : En convertissant des images 2D de conduite autonome en vue à vol doiseau, la précision de la reconnaissance du modèle augmente de 15 %

. En tirant parti de leur mécanisme d’attention, nous modélisons explicitement l’interaction par paires entre les lignes de balayage verticales d’une image et leurs projections polaires BEV.

Les transformateurs sont parfaitement adaptés aux problèmes de traduction d'image en BEV, car ils peuvent raisonner sur les interdépendances entre les objets, la profondeur et l'éclairage de la scène pour obtenir des représentations globalement cohérentes. Les chercheurs intègrent le modèle d'alignement basé sur Transformer dans une formulation d'apprentissage de bout en bout qui prend en entrée une image monoculaire et sa matrice intrinsèque, puis prédit la cartographie sémantique BEV des classes statiques et dynamiques.

Cet article construit une architecture qui permet de prédire le mappage sémantique BEV à partir d'images monoculaires autour d'un modèle d'alignement. Comme le montre la figure 1 ci-dessous, il contient trois composants principaux : un réseau fédérateur CNN standard pour extraire les caractéristiques spatiales sur le plan image ; un transformateur codeur-décodeur pour convertir les caractéristiques sur le plan image en BEV et enfin un réseau de segmentation pour décoder les caractéristiques BEV ; en cartes sémantiques. Plus précisément, les principales contributions de cette étude sont :

(1) Utiliser un ensemble de conversion séquence-séquence 1D pour générer une carte BEV à partir d'une image
(2) Construire un réseau de transformateurs restreint et efficace avec des capacités de conscience spatiale ; de la formule (3) et de l'attention monotone dans le domaine du langage montre que pour une cartographie précise, savoir ce qui se trouve en dessous d'un point dans l'image est plus important que savoir ce qui se trouve au-dessus, bien que l'utilisation des deux conduise à la meilleure performance
(4) démontre comment l'attention axiale améliore les performances en fournissant une conscience temporelle et présente des résultats de pointe sur trois ensembles de données à grande échelle.
Résultats expérimentaux

Dans l'expérience, les chercheurs ont effectué plusieurs évaluations : traiter la conversion d'image en BEV comme un problème de conversion sur l'ensemble de données nuScenes pour évaluer son utilité ; utilité du contexte au niveau de la séquence et impact des informations de position polaire. Enfin, la méthode est comparée aux méthodes SOTA sur les ensembles de données nuScenes, Argoverse et Lyft.

Expérience d'ablation

Comme le montre la première partie du tableau 2 ci-dessous, les chercheurs ont comparé l'attention douce (en regardant des deux côtés), l'attention monotone du retour en arrière du bas de l'image (en regardant vers le bas), le retour en arrière du haut de l'image (en regardant vers le haut) une attention monotone.

Il s’avère qu’il vaut mieux regarder vers le bas depuis un point de l’image que regarder vers le haut.

Le long des indices de texture locaux - Ceci est cohérent avec la façon dont les humains tentent de déterminer la distance des objets dans les environnements urbains, où nous utilisons l'endroit où l'objet croise le plan du sol. Les résultats montrent également que l’observation dans les deux sens améliore encore la précision, rendant l’inférence profonde plus discriminante.

Article exceptionnel de lICRA 2022 : En convertissant des images 2D de conduite autonome en vue à vol doiseau, la précision de la reconnaissance du modèle augmente de 15 %

L'utilité du contexte horizontal de longue séquence.

La conversion image en BEV ici est effectuée comme un ensemble de conversions séquence à séquence 1D, donc une question est de savoir ce qui se passe lorsque l'image entière est convertie en BEV. Compte tenu du temps de calcul secondaire et de la mémoire requis pour générer des cartes d’attention, cette approche est d’un coût prohibitif. Cependant, les avantages contextuels de l’utilisation de l’image entière peuvent être approximés en appliquant une attention axiale horizontale aux caractéristiques du plan de l’image. Avec une attention axiale à travers les lignes d'image, les pixels des lignes de balayage verticales ont désormais un contexte horizontal à longue portée, puis un contexte vertical à longue portée est fourni par la transition entre les séquences 1D comme auparavant. Comme le montre la partie centrale du tableau 2,

la fusion du contexte au niveau d'une séquence longue ne profite pas au modèle

, et a même un léger effet négatif. Cela illustre deux points : premièrement, chaque rayon transformé ne nécessite pas d'informations sur toute la largeur de l'image d'entrée, ou plutôt, le contexte de séquence longue ne fournit aucune information supplémentaire par rapport au contexte déjà agrégé par l'avantage de la convolution frontale. . Cela montre que l'utilisation de l'image entière pour effectuer la transformation n'améliorera pas la précision du modèle au-delà de la formule de contrainte de base. De plus, la dégradation des performances causée par l'introduction de l'attention axiale horizontale signifie la difficulté d'utiliser l'attention pour former des séquences de largeur d'image ; comme on peut le voir, il sera plus difficile de s'entraîner en utilisant l'image entière comme séquence d'entrée.

Transformateurs agnostiques polaires et adaptatifs polaires

: La dernière partie du tableau 2 compare les variantes Po-Ag et Po-Ad. Un modèle Po-Ag n'a pas d'informations de position de polarisation, le Po-Ad du plan image comprend des codages polaires ajoutés à l'encodeur Transformer, et pour le plan BEV, ces informations sont ajoutées au décodeur. L'ajout de codages polaires à l'un ou l'autre plan est plus avantageux que de l'ajouter au modèle agnostique, la classe dynamique étant celle qui en ajoute le plus. L'ajouter aux deux plans renforce encore cela, mais a le plus grand impact sur les classes statiques. Comparaison avec les méthodes SOTA

Les chercheurs ont comparé cette méthode avec certaines méthodes SOTA.

Comme le montre le tableau 1 ci-dessous, les performances du modèle spatial sont meilleures que la méthode SOTA compressée actuelle STA-S, avec une amélioration relative moyenne de 15%

. Sur les classes dynamiques plus petites, l'amélioration est encore plus significative, la précision de détection des bus, camions, remorques et obstacles augmentant toutes de 35 à 45 %.

Les résultats qualitatifs obtenus dans la figure 2 ci-dessous soutiennent également cette conclusion. Le modèle présenté dans cet article montre une plus grande similarité structurelle et un meilleur sens de la forme. Cette différence peut être partiellement attribuée aux couches entièrement connectées (FCL) utilisées pour la compression : lors de la détection d'objets petits et distants, une grande partie de l'image est un contexte redondant.

De plus, les piétons et autres objets sont souvent partiellement bloqués par les véhicules. Dans ce cas, la couche entièrement connectée aura tendance à ignorer les piétons et à conserver la sémantique des véhicules. Ici, la méthode de l'attention montre son avantage car chaque profondeur radiale peut être remarquée indépendamment de l'image - de sorte que des profondeurs plus profondes peuvent rendre visibles les corps des piétons, tandis que les profondeurs précédentes ne peuvent détecter que les véhicules.

Les résultats sur l'ensemble de données Argoverse dans le tableau 3 ci-dessous montrent un schéma similaire, dans lequel notre méthode s'améliore de 30 % par rapport à PON [8].

Comme le montre le tableau 4 ci-dessous, les performances de cette méthode sur nuScenes et Lyft sont meilleures que LSS [9] et FIERY [20]. Une véritable comparaison est impossible sur Lyft car il n'a pas de répartition canonique train/val, et il n'y a aucun moyen d'obtenir la répartition utilisée par LSS.

Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

对象 cnn transformer https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Tan Zhongyi : Du MLOps centré sur le modèle au MLOps centré sur les données aide l'IA à être mise en œuvre plus rapidement et de manière plus rentableArticle suivant：Tan Zhongyi : Du MLOps centré sur le modèle au MLOps centré sur les données aide l'IA à être mise en œuvre plus rapidement et de manière plus rentable

Articles Liés

Voir plus