Maison > Article > Périphériques technologiques > ST-P3 : Méthode de vision d'apprentissage de caractéristiques spatio-temporelles de bout en bout pour la conduite autonome
Article arXiv "ST-P3 : End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning", 22 juillet, auteur de l'Université Jiao Tong de Shanghai, du laboratoire d'IA de Shanghai, de l'Université de Californie à San Diego et recherche de Pékin de JD hôpital .com.
Proposer un schéma d'apprentissage de caractéristiques spatio-temporelles pouvant fournir simultanément un ensemble de caractéristiques plus représentatives pour les tâches de perception, de prédiction et de planification, appelé ST-P3. Plus précisément, une technique d'accumulation alignée égocentrique est proposée pour conserver les informations géométriques dans l'espace 3D avant de détecter la conversion BEV ; l'auteur conçoit un modèle à double voie pour que les changements de mouvement passés soient pris en compte pour les prédictions futures ; une unité de raffinement est introduite pour compenser la reconnaissance prévue des éléments visuels. Le code source, le modèle et les détails du protocole sont open source https://github.com/OpenPerceptionX/ST-P3.
Méthode LSS pionnière pour extraire des caractéristiques de perspective de caméras multi-vues via la profondeur. on estime qu'il sera mis à niveau vers la 3D et intégré dans l'espace BEV. Conversion de fonctionnalités entre deux vues, dont la prédiction de la profondeur latente est cruciale.
La mise à niveau des informations planes bidimensionnelles vers trois dimensions nécessite des dimensions supplémentaires, c'est-à-dire une profondeur adaptée aux tâches de conduite autonome géométriques tridimensionnelles. Pour améliorer encore la représentation des fonctionnalités, il est naturel d'incorporer des informations temporelles dans le cadre puisque la plupart des scènes sont chargées de sources vidéo.
Comme décrit dans la figureST-P3Cadre général : plus précisément, étant donné un ensemble de vidéos de caméra environnantes, saisissez-les dans l'épine dorsale pour générer des fonctionnalités de vue de face préliminaires. Effectue une estimation de profondeur auxiliaire pour convertir les entités 2D en espace 3D. Le schéma d'accumulation d'alignement autocentré aligne d'abord les entités passées sur le système de coordonnées de la vue actuelle. Les caractéristiques actuelles et passées sont ensuite agrégées dans un espace tridimensionnel, préservant les informations géométriques avant de les convertir en représentation BEV. En plus du modèle de domaine temporel de prédiction couramment utilisé, les performances sont encore améliorées en construisant un deuxième chemin pour expliquer les changements de mouvement passés. Cette modélisation à double chemin garantit une représentation plus forte des caractéristiques pour déduire de futurs résultats sémantiques. Afin d'atteindre l'objectif ultime de la planification de trajectoire, la connaissance préalable des premières fonctionnalités du réseau est intégrée. Un module de raffinement a été conçu pour générer la trajectoire finale à l'aide de commandes de haut niveau en l'absence de cartes HD.
Comme le montre l'image, la méthode d'accumulation d'alignement égocentrique deperception. (a) Utiliser l'estimation de la profondeur pour transformer les caractéristiques de l'horodatage actuel en 3D et les fusionner dans les caractéristiques BEV après l'alignement (b-c) Aligner les caractéristiques 3D de l'image précédente avec la vue de l'image actuelle et fusionner avec tous les états passés et actuels ; amélioration de la représentation des fonctionnalités.
Comme le montre la figure, il s'agit d'un modèle bidirectionnel pour laprédiction : (i) le code latent est la distribution de la carte des caractéristiques (ii iii) de manière à combiner la distribution de l'incertitude, indiquant le futur multi ; -modalité, et le chemin b apprend des changements passés, ce qui aide les informations du chemin a à compenser.
Comme objectif ultime, vous devez planifier une trajectoire sûre et confortable pour atteindre le point cible. Ce planificateur de mouvement échantillonne un ensemble de trajectoires différentes et en sélectionne une qui minimise la fonction de coût apprise. Cependant, l'intégration des informations provenant des points cibles et des feux de circulation via un modèle de domaine temporel ajoute des étapes d'optimisation supplémentaires. Comme le montre la figure, l'intégration et le raffinement des connaissances préalables pour laplanification : le diagramme des coûts globaux comprend deux sous-coûts. Les trajectoires à coût minimum sont redéfinies davantage à l'aide de fonctionnalités prospectives pour regrouper les informations basées sur la vision provenant des entrées de caméra.
Pénaliser les trajectoires avec de fortes accélérations latérales, à-coups ou courbures. Espérons que cette trajectoire atteindra sa destination de manière efficace, afin que les progrès soient récompensés. Cependant, les éléments de coût ci-dessus ne contiennent pas d’informations sur les cibles généralement fournies par les cartes routières. Utilisez des commandes de haut niveau, notamment avancer, tourner à gauche et tourner à droite, et évaluer les trajectoires uniquement en fonction des commandes correspondantes. De plus, les feux tricolores sont cruciaux pour SDV pour optimiser les trajectoires à travers le réseau GRU. L'état caché est initialisé avec les fonctionnalités de la caméra frontale du module d'encodeur et chaque point d'échantillonnage du terme de coût est utilisé comme entrée. Les résultats expérimentaux sont les suivants :Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!