Maison >Périphériques technologiques >IA >Une revue des méthodes de planification de bout en bout pour la conduite autonome

Une revue des méthodes de planification de bout en bout pour la conduite autonome

王林
王林avant
2023-10-30 14:45:05915parcourir

Cet article est réimprimé avec l'autorisation du compte public Heart of Autonomous Driving. Veuillez contacter la source originale pour la réimpression

1. Le plan de Woven Planet (filiale de Toyota) : Urban Driver 2021

Bien que cet article. a 21 ans, mais de nombreux nouveaux articles l'utilisent comme base de comparaison, il est donc également nécessaire de comprendre sa méthode

Une revue des méthodes de planification de bout en bout pour la conduite autonome

Une revue des méthodes de planification de bout en bout pour la conduite autonome

Après un examen approximatif, il utilise principalement les gradients de politique pour apprendre la fonction de cartographie de Etat->Action récente. Avec cette cartographie, la fonction peut déduire l'intégralité de la trajectoire d'exécution étape par étape. La perte finale est de rendre la trajectoire donnée par cette déduction aussi proche que possible de la trajectoire experte.

L'effet devrait être plutôt bon à ce moment-là, il peut donc devenir la base de référence pour de nouveaux algorithmes.

2. Plan 1 de l'Université technologique de Nanyang Planification prédictive conditionnelle du comportement avec apprentissage par renforcement inverse 2023.04

Une revue des méthodes de planification de bout en bout pour la conduite autonome

Utilisez d'abord des règles pour énumérer une variété de comportements et générer 10 à 30 trajectoires. (Résultats de prédiction non utilisés)
Utilisez la prédiction conditionnelle pour calculer les résultats de prédiction pour la trajectoire candidate de chaque véhicule hôte, puis utilisez IRL pour noter la trajectoire candidate.

Le modèle de prédiction conjointe conditionnelle ressemble à ceci :

Une revue des méthodes de planification de bout en bout pour la conduite autonome

Ce qui est fondamentalement génial avec cette méthode, c'est qu'elle utilise la prédiction conjointe conditionnelle pour compléter des prédictions interactives, donnant à l'algorithme une certaine capacité de jeu.
Mais je pense personnellement que le défaut de l'algorithme est que seulement 10 à 30 trajectoires étaient générées auparavant, et les prédictions n'étaient pas prises en compte lors de la génération des trajectoires, et au final, une de ces trajectoires sera directement sélectionnée comme résultat final après IRL notation, ce qui facilite la tâche pour 10 à 30 situations qui n'étaient pas idéales après avoir pris en compte les prédictions. Cela équivaut à choisir un général parmi les infirmes, et ceux choisis sont toujours des infirmes. Basé sur cette solution, ce sera un bon moyen de résoudre le problème de la qualité de la génération d'échantillons à l'avant. 3. Solution NVIDIA : 2023.02 Planification de politiques structurées en arborescence avec des modèles de comportement appris

Utilisation d'un échantillonnage d'arbre régulier, couche par couche. couche Pour un examen futur, générez une prédiction conditionnelle pour chaque sous-nœud de chaque couche, puis utilisez des règles pour noter les résultats de prédiction et la trajectoire principale du véhicule, et utilisez certaines règles pour éliminer les règles illégales, puis utilisez DP pour générer la trajectoire optimale. à l'avenir, l'idée DP est quelque peu similaire à dp_path_optimizer dans Apollo, mais ajoute une dimension temporelle.

Cependant, comme il y a une dimension supplémentaire, une fois l'expansion trop répétée, l'espace de solution sera toujours grand et le montant du calcul sera trop grand. La méthode écrite dans l'article actuel consiste à éliminer au hasard certains nœuds lorsqu'il y en a. il y a trop de nœuds. Assurez-vous que la quantité de calcul est contrôlable (on dirait que cela signifie que s'il y a trop de nœuds, cela peut être après n niveaux, et l'impact peut être relativement faible)

La principale contribution de cet article. consiste à transformer un espace de solution continu en une décision markovienne grâce à ce processus de règle d'échantillonnage arborescent, puis à utiliser dp pour le résoudre.

4. Dernier plan conjoint de l'Université technologique de Nanyang et de NVIDIA en octobre 2023 : DTPP : Prédiction conditionnelle conjointe différenciable et évaluation des coûts pour la planification des politiques d'arbres dans la conduite autonome

Le titre est très passionnant :

1. un certain effet de jeu

2. Il est différentiable et peut renvoyer tout le gradient afin que les prédictions puissent être entraînées avec IRL. C'est également une condition nécessaire pour pouvoir construire une conduite autonome de bout en bout. Troisièmement, la planification des politiques arborescentes peut avoir certaines capacités de déduction interactives. Après l'avoir lu attentivement, j'ai trouvé cet article très informatif et la méthode très instructive. intelligent.



Après avoir combiné et amélioré le TPP de NVIDIA et la planification prédictive du comportement conditionnel de Nanyang Polytechnic avec l'apprentissage par renforcement inverse, le problème des mauvaises trajectoires des candidats dans le précédent article de Nanyang Polytechnic a été résolu avec succès.

Les principaux modules du plan papier comprennent :

Une revue des méthodes de planification de bout en bout pour la conduite autonome1. Le module de prédiction conditionnelle saisit une trajectoire historique du véhicule principal + une trajectoire rapide + une trajectoire historique du véhicule obstacle, et donne la trajectoire prédite du véhicule principal approchant de la trajectoire rapide et la trajectoire prédite du véhicule obstacle qui est cohérente. avec le comportement du véhicule principal.

2. Le module de notation peut noter une trajectoire voiture principale + voiture obstacle pour voir si cette trajectoire ressemble au comportement d'un expert. La méthode d'apprentissage est IRL.

3. Module de recherche de politiques arborescentes, utilisé pour générer un ensemble de trajectoires candidates

L'algorithme de recherche arborescente est utilisé pour explorer la solution réalisable du véhicule principal. Chaque étape du processus d'exploration prend la trajectoire explorée comme entrée, utilise l'algorithme de prédiction conditionnelle pour générer les trajectoires prédites du véhicule principal et du véhicule obstacle, et appelle le module de notation pour évaluer l'excellence de la trajectoire est médiocre, affectant ainsi la direction de la prochaine recherche de nœuds d'expansion. Grâce à cette méthode, vous pouvez générer certaines trajectoires principales du véhicule qui sont différentes des autres solutions et prendre en compte l'interaction avec le véhicule obstacle lors de la génération des trajectoires.

L'IRL traditionnel crée manuellement de nombreuses fonctionnalités, telles qu'un ensemble de fonctionnalités avant et arrière Diverses caractéristiques des obstacles dans la dimension temporelle de la trajectoire (telles que s, l et ttc relatifs. Dans cet article, afin de rendre le modèle différenciable, le contexte ego MLP de prédiction est directement utilisé pour générer un tableau de poids (taille = 1 *). C), représente implicitement les informations environnementales autour du véhicule hôte, puis utilise MLP pour convertir directement la trajectoire du véhicule hôte + les résultats de prédiction multimodaux correspondants en un tableau de fonctionnalités (taille = C * N, N fait référence au nombre de trajectoires candidates ) , puis les deux matrices sont multipliées pour obtenir le score final de la trajectoire. Ensuite, IRL a laissé les experts marquer les points les plus élevés. Personnellement, je pense que cela peut être dû à l'efficacité du calcul, en rendant le décodeur aussi simple que possible, mais il y a quand même une certaine perte des informations principales du véhicule. Si vous ne faites pas attention à l'efficacité du calcul, vous pouvez utiliser des réseaux plus complexes pour le faire. connecter le contexte de l'ego et les trajectoires prédites, et le niveau d'effet devrait être meilleur ? Ou si vous abandonnez la différentiabilité, vous pouvez toujours envisager d'ajouter des fonctionnalités définies manuellement, ce qui devrait également améliorer l'effet du modèle.

En termes de temps, cette solution utilise une méthode d'un ré-encodage + plusieurs décodages légers, ce qui réduit avec succès les délais de calcul. L'article souligne que le délai peut être compressé à 98 millisecondes

Il appartient aux rangs SOTA parmi les planificateurs basés sur l'apprentissage, et l'effet en boucle fermée est proche du schéma PDM basé sur des règles n°1 de nuplan mentionné dans l'article précédent.

Résumé

En y regardant, je pense que ce paradigme est une bonne idée. Vous pouvez trouver des moyens d'ajuster le processus spécifique au milieu :

  1. Utilisez le modèle de prédiction pour guider certaines règles afin de générer de l'ego du candidat. trajectoires
  2. Pour chaque trajectoire, utilisez la prédiction conjointe conditionnelle pour faire des prédictions interactives et générer des prédictions d'agent. Peut améliorer les performances de jeu.
  3. IRL et d'autres méthodes utilisent les résultats de la prédiction conjointe conditionnelle pour noter la trajectoire précédente du véhicule principal et sélectionner la trajectoire optimale

Une revue des méthodes de planification de bout en bout pour la conduite autonome

Le contenu qui doit être réécrit est : Lien original : https://mp.weixin. qq.com/s/ZJtMU3zGciot1g5BoCe9Ow

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer