Maison >Périphériques technologiques >IA >Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

PHPz
PHPzavant
2023-04-08 22:11:071791parcourir

L'article d'arXiv « JPerceiver : Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes », mis en ligne le 22 juillet, rend compte des travaux du professeur Tao Dacheng de l'Université de Sydney, en Australie, et du Beijing JD Research Institute.

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

L'estimation de la profondeur, l'odométrie visuelle (VO) et l'estimation de la disposition des scènes en vue à vol d'oiseau (BEV) sont trois tâches clés pour la perception des scènes de conduite, qui constituent la base de la planification des mouvements et de la navigation dans la conduite autonome. Bien que complémentaires, ils se concentrent généralement sur des tâches distinctes et abordent rarement les trois simultanément.

Une approche simple consiste à le faire indépendamment de manière séquentielle ou parallèle, mais il y a trois inconvénients, à savoir 1) les résultats de profondeur et de VO sont affectés par le problème d'ambiguïté d'échelle inhérent 2) la disposition BEV est généralement estimée séparément pour la route et ; véhicule, tout en ignorant la relation explicite de superposition-sous-couche ; 3) Bien que la carte de profondeur soit un indice géométrique utile pour déduire la disposition de la scène, la disposition BEV est en fait prédite directement à partir de l'image de face sans utiliser aucune information relative à la profondeur.

Cet article propose un cadre de perception commun JPerceiver pour résoudre ces problèmes et estimer simultanément la profondeur perçue à l'échelle, la disposition VO et BEV à partir de séquences vidéo monoculaires. Utilisez la transformation géométrique à vue croisée (CGT) pour propager l'échelle absolue du tracé de la route à la profondeur et à la VO sur la base d'une perte d'échelle soigneusement conçue. Dans le même temps, un module cross-view and cross-modal transfer (CCT) est conçu pour utiliser des indices de profondeur pour raisonner sur la disposition des routes et des véhicules grâce à des mécanismes d'attention.

JPerceiver est formé à une méthode d'apprentissage multitâche de bout en bout, dans laquelle les modules de perte d'échelle CGT et CCT favorisent le transfert de connaissances entre les tâches et facilitent l'apprentissage des fonctionnalités pour chaque tâche.

Le code et le modèle peuvent être téléchargés

https://github.com/sunnyHelen/JPerceiver.

Comme le montre la figure, JPerceiver se compose de trois réseaux : profondeur, attitude et tracé de la route , qui sont tous basés sur une architecture codeur-décodeur. Le réseau de profondeur vise à prédire la carte de profondeur Dt de la trame courante It, où chaque valeur de profondeur représente la distance entre un point 3D et la caméra. Le but du réseau de poses est de prédire la transformation de pose Tt→t+m entre la trame courante It et sa trame adjacente It+m. L'objectif du réseau routier est d'estimer le tracé BEV Lt du cadre actuel, c'est-à-dire l'occupation sémantique des routes et des véhicules dans le plan cartésien vu de dessus. Les trois réseaux sont optimisés conjointement lors de la formation.

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Les deux réseaux prédisant la profondeur et la pose sont optimisés conjointement avec la perte photométrique et la perte de douceur de manière auto-supervisée. De plus, la perte d’échelle CGT est également conçue pour résoudre le problème d’ambiguïté d’échelle de la profondeur monoculaire et de l’estimation de VO.

Afin d'obtenir une perception de l'environnement sensible à l'échelle, en utilisant les informations d'échelle dans la disposition BEV, la perte d'échelle de CGT est proposée pour l'estimation de la profondeur et de VO. Étant donné que la disposition BEV montre l'occupation sémantique dans le plan cartésien BEV, elle couvre la plage de Z mètres devant le véhicule et de (Z/2) mètres respectivement à gauche et à droite. Il fournit un champ de distance naturelle z, la distance métrique zij de chaque pixel par rapport au propre véhicule, comme le montre la figure :

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Supposons que le plan BEV est le sol et que son origine est exactement à l'origine de le propre système de coordonnées du véhicule Ensuite, sur la base des paramètres extrinsèques de la caméra, le plan BEV peut être projeté sur la caméra avant par transformation homographique. Par conséquent, le champ de distance BEV z peut être projeté dans la caméra avant, comme le montre la figure ci-dessus, et utilisé pour ajuster la profondeur prévue d, déduisant ainsi la perte d'échelle CGT :

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Pour l'estimation du tracé de la route, un encodeur -decoder est utilisé dans la structure du réseau. Il convient de noter qu'un encodeur partagé est utilisé comme extracteur de fonctionnalités et différents décodeurs pour apprendre simultanément la disposition BEV de différentes catégories sémantiques. De plus, un module CCT est conçu pour améliorer l’interaction des fonctionnalités et le transfert de connaissances entre les tâches, et fournir des informations géométriques 3D pour le raisonnement spatial de BEV. Afin de régulariser le réseau routier, divers termes de perte sont combinés pour former une perte hybride et obtenir différentes classes d'optimisation équilibrée.

CCT étudie la corrélation entre les caractéristiques de vue avant Ff, les caractéristiques de disposition BEV Fb, les caractéristiques avant reconverties Ff′ et les caractéristiques de profondeur avant FD, et affine les caractéristiques de disposition en conséquence, comme le montre la figure : Deux parties, à savoir

CCT- CV et CCT-CM du module cross-view et du module cross-modal.

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

En CCT, Ff et Fd sont extraits par l'encodeur de la branche perceptuelle correspondante, tandis que Fb est obtenu par une projection de vue MLP pour convertir Ff en BEV, et une perte de cycle contrainte par le même MLP pour le reconvertir en Ff′.

Dans CCT-CV, le mécanisme d'attention croisée est utilisé pour découvrir la correspondance géométrique entre la vue avant et les caractéristiques BEV, puis guide le raffinement des informations de vue avant et prépare l'inférence BEV. Afin d'utiliser pleinement les fonctionnalités d'image de vue avant, Fb et Ff sont projetés sur des correctifs : Qbi et Kbi, respectivement en tant que requête et clé.

En plus d'utiliser les fonctionnalités de vue avant, CCT-CM est également déployé pour imposer des informations géométriques 3D à partir de Fd. Puisque Fd est extrait de l’image de vue avant, il est raisonnable d’utiliser Ff comme pont pour réduire l’écart intermodal et apprendre la correspondance entre Fd et Fb. Fd joue le rôle de valeur, obtenant ainsi de précieuses informations géométriques 3D liées aux informations BEV et améliorant encore la précision de l'estimation du tracé routier.

Dans le processus d'exploration d'un cadre d'apprentissage commun pour prédire simultanément différentes dispositions, il existe de grandes différences dans les caractéristiques et la distribution des différentes catégories sémantiques. Pour les fonctionnalités, le tracé de la route dans les scénarios de conduite doit généralement être connecté, tandis que les différentes cibles de véhicules doivent être segmentées.

Pour la distribution, plus de scènes de routes droites sont observées que de scènes de virage, ce qui est raisonnable dans des ensembles de données réels. Cette différence et ce déséquilibre augmentent la difficulté de l'apprentissage de la disposition BEV, en particulier la prédiction conjointe de différentes catégories, car une simple perte d'entropie croisée (CE) ou une perte L1 échoue dans ce cas. Plusieurs pertes de segmentation, notamment la perte CE basée sur la distribution, la perte IoU basée sur la région et la perte de limite, sont combinées en une perte hybride pour prédire la disposition de chaque catégorie.

Les résultats expérimentaux sont les suivants :

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Réseau de perception pour l'estimation de la profondeur, de l'attitude et de la route dans des scénarios de conduite communs

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer