Maison > Article > Périphériques technologiques > Prédiction et planification de trajectoire pour la conduite autonome sous fusion forcée
D'une manière générale, la fusion est une tâche difficile pour la conduite autonome et habitée, en particulier dans les scénarios de circulation dense, car les véhicules qui fusionnent doivent généralement interagir avec d'autres véhicules pour identifier ou créer de l'espace, afin de réaliser une fusion en toute sécurité. Cet article étudie le problème du contrôle des véhicules autonomes dans des scénarios de fusion forcée. Nous proposons un nouveau contrôleur basé sur le jeu appelé contrôleur de jeu leader-follower (LFGC).
Parmi eux, un modèle de jeu leader-suiveur en partie considérable est utilisé pour modéliser le comportement d'interaction entre des véhicules autonomes et d'autres véhicules aux intentions de conduite a priori incertaines. LFGC estime les intentions d'autres véhicules en ligne sur la base des trajectoires observées, prédit leurs trajectoires futures et utilise le contrôle prédictif du modèle (MPC) pour planifier la trajectoire du véhicule autonome afin de garantir la probabilité de sécurité tout en atteignant l'objectif de fusion. Afin de vérifier les performances de LFGC, nous l'avons testé à l'aide de données de simulation et NGSIM, dans lesquelles LFGC a démontré un taux de réussite d'incorporation allant jusqu'à 97,5 %.
La réalisation de véhicules hautement autonomes est encore confrontée à de nombreux défis [4]. La réalisation de la fusion forcée sur l'autoroute est un scénario difficile pour la conduite habitée et autonome. La fusion forcée fait généralement référence au scénario dans lequel la voie actuelle se termine et où une fusion forcée est requise, comme une fusion sur une rampe d'entrée d'autoroute. En cas de trafic intense, les véhicules fusionnés interagissent et/ou coopèrent avec les véhicules circulant dans la voie cible.
À ce moment-là, le véhicule dans la voie cible peut choisir d'ignorer le véhicule qui fusionne (c'est-à-dire continuer à conduire), et le véhicule qui fusionne ne peut que fusionner derrière lui ou, le véhicule dans la voie cible peut choisir de céder ; la fusion (c'est-à-dire laisser le véhicule qui fusionne fusionner devant lui). Pour réussir à se fondre dans des flux de circulation denses, les contrôleurs de véhicules autonomes doivent prédire raisonnablement l'intention des véhicules dans la voie cible de continuer ou de céder afin de réagir de manière appropriée.
Dans le même temps, l'intention des autres voitures dépend non seulement des conditions de circulation (comme la position relative et la vitesse entre les deux voitures), mais aussi du style de conduite général du conducteur, de sa personnalité, de ses émotions, etc. Par exemple, un conducteur agressif peut être enclin à continuer de conduire, tandis qu’un conducteur prudent et conservateur peut être enclin à céder. Cela pose des défis importants pour la planification et le contrôle des véhicules autonomes.
Figure 1 Diagramme de scène de fusion forcée d'un véhicule autonome bleu
Actuellement, de nombreux chercheurs utilisent le cadre du processus de décision de Markov partiellement observable (POMDP) pour traiter les incertitudes interactives (telles que , en raison des différentes intentions de coopération des autres véhicules), cependant, cette méthode nécessite des calculs élevés [11] et est difficile à utiliser pour une interaction multi-véhicules.
La méthode d'apprentissage par renforcement (RL) est une autre méthode populaire pour définir des stratégies de contrôle [12][13] pour les scénarios de changement ou de fusion de voie. Les méthodes basées sur RL ont la capacité de gérer des scénarios complexes d’interaction multi-véhicules dans des conditions de circulation, mais RL manque d’interprétabilité et de garanties de sécurité claires.
Afin d'obtenir un contrôle plus explicable, certains chercheurs ont proposé d'ajouter explicitement un modèle prédictif d'interaction avec le véhicule à l'algorithme de contrôle. Par exemple, [22] utilise le « Social Generative Adversarial Network (GAN) » pour prédire la trajectoire future des autres voitures en réponse au comportement de la propre voiture. Cependant, SocialGAN ne prend pas en compte les changements dans le style et l'intention du conducteur et nécessite d'énormes données de trafic [23] pour la formation ; certaines études utilisent des méthodes de théorie des jeux pour modéliser des scénarios de changement ou de fusion de voie [9], [25], Interactions avec les véhicules ; selon [26], [27], [28], [29] peuvent prendre en compte différents styles de conduite et/ou intentions, par exemple via la modélisation de jeux et l'estimation en ligne du niveau cognitif du conducteur [26] ou [ 30], [31 ].
Dans cet article, un nouvel algorithme de contrôle avancé appelé Leader-Follower Game Controller (LFGC) est proposé pour la planification et le contrôle de véhicules autonomes dans des scénarios de fusion forcée. Dans LFGC, la théorie des jeux explicite est utilisée pour modéliser l'intention d'interaction du conducteur (continuer ou céder) et le comportement du véhicule qui en résulte.
Parce que le modèle comporte plusieurs paires leader-suiveur parallèles, on l'appelle un jeu leader-suiveur [32]. Compte tenu de l’incertitude de l’interaction, la relation leader-suiveur a priori incertaine entre deux véhicules est modélisée comme une variable latente. LFGC estime la relation leader-suiveur en ligne sur la base des trajectoires observées et utilise une stratégie basée sur le contrôle prédictif de modèle (MPC) pour prendre des décisions optimales pour le véhicule autonome.
Par conséquent, le LFGC proposé est adapté pour évaluer la relation leader-suiveur prévue afin de garantir une sécurité probabiliste tout en réalisant la fusion.
Par rapport aux méthodes existantes, les apports et innovations du LFGC sont les suivants :
1) Utiliser le modèle de jeu LFGC pour prédire les trajectoires des véhicules, tout en prenant en compte les autres interactions et intentions de coopération des véhicules, et générer des résultats interprétables après avoir accédé au schéma de contrôle MPC.
2) LFGC gère l'incertitude interactive causée par les différentes intentions de coopération d'autres véhicules en modélisant l'incertitude en tant que variable latente et en estimation en ligne par inférence bayésienne basée sur la collection de trajectoires d'observation historiques.
3) LFGC établit des contraintes sur les exigences de sécurité des véhicules (telles que l'évitement des collisions) et effectue une optimisation tout en satisfaisant des caractéristiques de sécurité probabilistes claires (c'est-à-dire dans les limites de probabilité de sécurité spécifiées par l'utilisateur).
4) LFGC est conçu dans un espace d'état continu, ce qui réduit le coût de calcul de l'espace discret et peut gérer des scénarios d'interaction multi-véhicules plus complexes.
5) La faisabilité du LFGC est vérifiée au moyen d'études de cas complètes basées sur la simulation, y compris des cas où d'autres véhicules sont contrôlés par différents types de modèles de conducteur, ainsi que des cas réels dans le cas de l'ensemble de données NGSIM US Highway 101 [34] . Et dans des simulations de cas réels, il montre un taux de réussite allant jusqu'à 97,5 %.
Dans cette section, une stratégie de planification de trajectoire de véhicule autonome basée sur MPC est établie sur la base du modèle représentant la dynamique des véhicules et du trafic.
Modèle de dynamique du véhicule
Dans notre utilisation du modèle cinématique de vélo [35], l'équation en temps continu du modèle de vélo est la suivante,
en supposant uniquement la roue avant direction , il n'y a pas de direction des roues arrière (c'est-à-dire ) ; x, y sont les positions longitudinale et latérale du véhicule ; v est la vitesse du véhicule ψ et β sont l'angle de lacet et l'angle de dérapage de ; le véhicule ; et représente la distance du véhicule de CG à la roue avant et à l'essieu arrière a est l'accélération dans la direction de la vitesse v ; Les entrées de contrôle sont l'accélération et la direction des roues avant, .
Paramètre de trafic dynamique
La scène comprend 1 véhicule autonome et n autres véhicules L'état du trafic et sa dynamique sont caractérisés par l'agrégation des états et de la dynamique de tous les n+1 véhicules. Plus précisément, le modèle à temps discret suivant est utilisé pour décrire la dynamique du trafic :
où,
représente l'état du trafic de n + 1 véhicules à des moments discrets, et représente l'ensemble des entrées de contrôle de tous les n + 1 véhicules à l'instant t. L'état de chaque véhicule comprend ses coordonnées xy, sa vitesse et son angle de lacet ; l'entrée de commande
fonction de récompense
la fonction de récompense est une représentation mathématique de la conduite du conducteur. objectif , l'état du trafic est composé des états des deux véhicules, et la récompense obtenue par le propre véhicule dépend des états et des entrées de contrôle des deux véhicules en interaction. Nous considérons Parmi eux, , est un poids vecteur. L'élément bonus représente les considérations courantes suivantes lors de la conduite : 1) La sécurité , c'est-à-dire ne pas entrer en collision avec d'autres voitures ou quitter la route 2) L'intention de fusion , c'est-à-dire la distance jusqu'à la destination ; voie ; 3) Confort, c'est-à-dire garder une distance raisonnable avec les autres voitures. Pour une définition plus détaillée de , voir [33].
Figure 2 Courbe de trajectoire de changement de voie à cinq degrés de liberté
Sélectionnez les trajectoires comme actions du véhicule
Nous considérons les échantillons de trajectoire de mouvement du véhicule sur comme l'espace d'action de chaque véhicule. Plus précisément, chaque trajectoire est l'historique temporel de l'état du véhicule
à partir de l'état actuel du véhicule. Selon le modèle de dynamique du véhicule (1), l'historique temporel des entrées de commande
correspondant à chaque trajectoire peut être calculé.
Pour les véhicules interactifs circulant sur la voie cible, nous considérons uniquement leur mouvement longitudinal.
En supposant et , le modèle cinématique (1) de ces véhicules se simplifie en :
A ce moment, la trajectoire partant des conditions initiales données ne dépend que de l'accélération a de [0, T]. A chaque instant d'échantillonnage, 81 courbes d'accélération sont considérées, c'est-à-dire 81 trajectoires qui satisfont à l'expression (4), formant ainsi une plage de trajectoire réalisable pour les autres véhicules circulant dans la voie cible.
Ces 81 trajectoires respectent les contraintes de vitesse.
Désignons chaque trajectoire par , m = 1,2,...81, et l'ensemble des trajectoires est enregistré par
La stratégie de trajectoire du véhicule fusionné comprend le maintien de la voie et changement de voie, la génération de trajectoire de maintien de voie est similaire à (4), et la trajectoire de changement de voie est représentée par un polynôme du cinquième ordre [37]. Autrement dit, la solution à l'exigence de trajectoire de changement de voie peut être modélisée comme le problème de valeur limite suivant :
Trouvez les coefficients et pour que le polynôme d'ordre 5
satisfasse les conditions de valeur initiale et les conditions de valeur finale correspondantes. La variable ζ dans (5) représente le temps continu et ζ = 0 pour l'échantillon actuel.
Dans le même temps, on suppose que 1) le véhicule peut commencer à changer de voie à tout moment dans la plage de planification, 2) le temps requis pour un changement complet de voie est constant [37]. Permettre au véhicule de mettre fin à son comportement de changement de voie à tout moment pendant le processus de changement de voie représente un « changement d'avis » du conducteur lorsqu'un changement de voie précédemment planifié devient irréalisable/sûr. La trajectoire après l'interruption du changement de voie est générée d'une manière similaire à la trajectoire de changement de voie.
Enfin, les trajectoires de maintien de voie, de changement de voie et d'abandon de changement de voie sont épissées et combinées en 162 trajectoires, qui sont utilisées comme région réalisable de la stratégie.
Les caractéristiques de la trajectoire sont extraites comme suit : 1) s'il faut/quand commencer un changement de voie ; 2) s'il faut/quand mettre fin à un changement de voie inapproprié.
La figure 3 montre l'échantillonnage de trajectoire défini lorsque le véhicule ne commence pas à changer de voie et lorsque le véhicule est en train de changer de voie. Désignons chaque trajectoire par,m = 1,2,...,162 ; l'ensemble de trajectoires est,.
Figure 3 Échantillon de trajectoire du véhicule fusionné
Pour résumer, la trajectoire réalisable en tant que sortie de décision est définie. Dans le même temps, l'historique temporel des entrées de commande correspondant à ces trajectoires peut être calculé sur la base du modèle de dynamique du véhicule (1). La trajectoire planifiée peut en fait être transférée au contrôleur de mouvement du véhicule sous-jacent.
Modèle de stratégie de contrôle prédictif
Considérons la stratégie de planification de trajectoire d'un véhicule autonome basée sur MPC, en considérant la présence de véhicules interagissant avec des signaux : à chaque instant d'échantillonnage t, le véhicule autonome calcule une valeur optimale trajectoire, , basée sur la maximisation de sa récompense cumulée dans le cadre de la planification :
où, représente l'état du trafic prévu à un instant discret t+τ, tandis que et
représentent les entrées de commande prédites du propre véhicule et du véhicule interactif à t+τ respectivement. Le paramètre λ∈(0,1) est le coefficient de profit et de perte des récompenses futures, c'est-à-dire que la priorité est donnée aux récompenses actuelles. En (6),
représente la récompense du véhicule autonome à t+τ, comme décrit dans la section II-C, représente un ensemble de valeurs de sécurité pour les états de circulation, utilisées pour mettre en œuvre des spécifications de sécurité strictes (telles que l'anti-collision , contraintes de limites routières, etc. ). Après avoir obtenu la trajectoire optimale , le véhicule autonome utilise l'entrée de commande correspondant à la trajectoire, met à jour son état au cours d'une période d'échantillonnage, puis répète les étapes ci-dessus à l'instant d'échantillonnage suivant t+1.
Cette section présente le modèle de jeu leader-suiveur utilisé dans cet article. Afin de simplifier le calcul en ligne du modèle de théorie des jeux, l'apprentissage par imitation est utilisé pour obtenir un modèle explicite basé sur des réseaux de neurones pour prédire en ligne la trajectoire de la réponse du véhicule interactif pour se fondre dans le comportement du véhicule autonome dans l'ensemble basé sur MPC. stratégie de planification de trajectoire.
Modèle théorique du jeu leader-suiveur
Dans cet article, nous considérons un modèle théorique paramétrique basé sur des interactions leader-suiveur par paire pour représenter l'intention coopérative du conducteur et ses conséquences. Le comportement du véhicule qui en résulte est appelé le leader -modèle de jeu suiveur. Dans ce modèle, le véhicule (ou le conducteur) qui décide de devancer l'autre véhicule est le leader du couple, tandis que le véhicule qui décide de céder le passage à l'autre véhicule est le suiveur du couple. Les dirigeants et les suiveurs utilisent des stratégies de prise de décision différentes. Ce modèle de théorie des jeux leader-suiveur a été proposé à l'origine dans [32]. Ce modèle de théorie des jeux est brièvement passé en revue ici pour présenter son application dans le scénario de fusion forcée d'autoroutes.
représente les trajectoires du leader et du suiveur comme et respectivement, où et est l'ensemble des trajectoires réalisables du leader et du suiveur. Supposons que les deux parties au jeu aient pris la décision de maximiser leurs récompenses cumulées, respectivement enregistrées comme et, définies comme suit :
, où représente le rôle dans le jeu, est la fonction de récompense du leader/ suiveur, et représente l'entrée de contrôle correspondante de la somme des deux trajectoires.
Plus précisément, nous modélisons le processus de prise de décision interactif des dirigeants et des suiveurs comme suit :
où (différent de ) est le leader (différent de La trajectoire optimale de le follower) dépend de l'état actuel du trafic, et sont définis comme suit :
Lequel
.
Le modèle de décision (8)-(11) en fusion forcée peut s'expliquer comme suit : un suiveur représente un conducteur qui a l'intention de céder. En raison de l’incertitude quant aux actions des autres conducteurs, les adeptes décident d’entreprendre une action qui maximise leur récompense dans le pire des cas via (9) et (11), en supposant que les autres conducteurs sont libres d’agir. Un leader représente un conducteur qui a l’intention de continuer, en supposant que l’autre conducteur cédera. Par conséquent, le leader utilise le modèle du suiveur pour prédire l'action d'un autre conducteur et, via (8) et (10), maximise la récompense du leader compte tenu de l'action prédite du suiveur. Ce modèle de jeu leader-suiveur est en partie dérivé du modèle de jeu de Stackelberg [38], mais assouplit certaines hypothèses qui ne s'appliquent pas aux interactions des conducteurs. On peut se référer à [32] pour une compréhension plus détaillée du modèle de jeu leader-suiveur et de son efficacité dans la modélisation des interactions entre conducteurs dans des scénarios multi-véhicules.
Veuillez noter que ce modèle ne signifie pas qu'un véhicule leader force toujours les véhicules fusionnants à fusionner derrière lui ou qu'un véhicule suiveur force toujours les véhicules fusionnants à fusionner devant lui, comme dans les deux exemples ci-dessous, le véhicule fusionnant peuvent fusionner devant le véhicule leader : 1) Le véhicule qui fusionne se trouve devant le véhicule leader, avec une distance suffisamment grande pour permettre une fusion en toute sécurité. 2) Le véhicule qui fusionne est sur le point d’atteindre la fin de sa voie. Étant donné que la sortie de route entraîne une pénalité importante (voir section 2-c), tant que la fusion de son propre véhicule n'entraîne pas de collision (la pénalité en cas de collision est plus élevée que celle de sortie de route), le propre véhicule peut choisir fusionner avant le véhicule venant en sens inverse pour éviter une grosse collision.
Ce qui précède montre que dans notre modèle de prise de décision (8)-(11), le rôle de leader-suiveur n'est pas attribué par la position spatiale du véhicule (le leader n'est pas nécessairement le véhicule qui précède). De plus, le modèle permet au véhicule autonome de forcer la fusion du flux de circulation sur la voie cible : à mesure que le véhicule autonome s'approche de la voie cible, il préférera de plus en plus fusionner pour éviter d'être pénalisé pour sortie de route à ce moment-là. le véhicule autonome sera dans la voie cible. Ils sont tous leaders ou ils entreprennent toujours l'action de fusion lorsque l'écart de fusion actuel n'est pas assez grand et que la fusion n'est pas assez confortable. Les modèles (8) à (11) indiquent que l'identité du leader du véhicule en interaction peut prédire la motivation ultérieure de fusion du véhicule en fusion. Par la suite, pour le bien de leur propre sécurité et de leur confort, les véhicules qui fusionnent ralentiront également et élargiront la distance qui les sépare pour assurer la fusion.
Le leader qui représente explicitement la stratégie de jeu à travers l'apprentissage par imitation
(8)-(11) Capable de prédire la prise de décision et la trajectoire de sa voiture en fonction de l'intention du conducteur et des informations actuelles sur l'état du trafic , c'est-à-dire que la stratégie d'action optimale du leader et la stratégie d'action optimale du suiveur peuvent être obtenues via (8) - (11). Cependant, les calculs en ligne répétés de (8) à (11) prendront beaucoup de temps. Par conséquent, nous utiliserons l’apprentissage par imitation pour représenter et explicitement.
Reportez-vous à [39], nous utilisons la représentation de l'apprentissage supervisé (en particulier en utilisant l'apprentissage par imitation).
L'apprentissage par imitation est un problème d'apprentissage supervisé, où l'agent apprendra une stratégie en observant le comportement d'experts. Les experts peuvent être des agents d’intelligence artificielle ou artificielle, et dans notre travail, ce qui est obtenu par (8)-(11) est la stratégie experte.
Nous avons obtenu une stratégie simulée en utilisant l'algorithme « d'agrégation de jeux de données » [40].
Parmi eux, l'objectif d'apprentissage global de l'algorithme d'agrégation d'ensembles de données peut être décrit comme suit :
représente la stratégie paramétrée à l'aide de θ (poids du réseau neuronal), représente la fonction de perte, concernant l'apprentissage par imitation et " agrégation de jeux de données" "Pour plus de détails sur l'algorithme, voir [39] et [40].
La stratégie d'apprentissage par imitation de l'apprentissage (8)-(11) peut prédire la prise de décision et la trajectoire de développement futur de sa voiture tout en comprenant l'intention coopérative du conducteur. Cependant, dans un scénario de circulation donné, nous ne pouvons pas connaître à l'avance les intentions coopératives des autres conducteurs, car les intentions du conducteur dépendent non seulement de la situation de la circulation (par exemple, la position relative et la vitesse entre les deux véhicules), mais également du style de conduite. /genre. Nous modélisons l'incertitude des intentions coopératives d'autres véhicules en tant que variables latentes, qui seront utilisées pour estimer les intentions coopératives d'autres véhicules et utiliserons des méthodes de contrôle prédictif pour obtenir des trajectoires optimales dans les problèmes de planification et de contrôle de véhicules autonomes.
Ci-dessous, nous décrivons l'algorithme de prise de décision à fusion forcée d'autoroute sous incertitude d'intention de coopération, à savoir le contrôleur de jeu leader-suiveur (LFGC). Au cours du processus de fusion forcée, nous générons une estimation des intentions coopératives des autres conducteurs comme décrit dans cette section, sur la base de laquelle nous modélisons (6) comme une stratégie de contrôle multi-véhicules interactive par paire.
Estimation des intentions coopératives de véhicules en interaction
À l'aide d'un jeu de suivi guidé, modélisation comportementale basée sur les intentions coopératives des conducteurs d'autres véhicules. Les véhicules qui cèdent sont modélisés comme des suiveurs dans le jeu, et les véhicules qui continuent (sans céder) sont modélisés comme des leaders. Autrement dit, l’intention coopérative du véhicule interactif peut être estimée en estimant son rôle dans le jeu leader-suiveur.
Pour y parvenir, nous considérons le modèle de dynamique du trafic (2) et les actions optimales du leader ou du suiveur (8) et (9). Du point de vue du véhicule autonome, le véhicule interactif joue à un jeu leader-suiveur, et le modèle de trafic dynamique peut s'écrire sous la forme
, où est le contrôle de soi. -véhicule, et est l'interaction Le contrôle du véhicule est obtenu par le jeu leader-suiveur, {leader, follower} représente le suiveur ou le leader, et la première entrée de contrôle correspond à en (8) (9) la trajectoire optimale. Désormais, la seule entrée dans (14) est le contrôle de sa propre voiture .
Considérant qu'en réalité, la prise de décision des autres voitures ne suit pas forcément la stratégie optimale calculée à partir de (8) et (9), donc du bruit gaussien est ajouté, en supposant que le système fonctionne selon (14) :
où est le bruit gaussien additif de moyenne et de covariance de 0.
Supposons que la voiture autonome a une croyance préalable à propos de σ, exprimée par, où {leader, follower}. Ensuite, sur la base de tous les états de circulation précédents et de toutes les actions entreprises par votre propre voiture
Le véhicule autonome doit calculer ou maintenir une croyance a posteriori sur le rôle de leader ou de suiveur du véhicule interactif, .
En utilisant l'algorithme d'estimation hybride proposé dans [41], la croyance a posteriori conditionnelle du rôle de leader ou de suiveur du véhicule interactif peut être calculée.
Plus précisément, l'identification du rôle de leader ou de suiveur du véhicule interactif peut être exprimée comme suit :
où est la probabilité conditionnelle ; de La probabilité de transition de à ; est la probabilité de distribution normale de la fonction de densité, la moyenne est de 0 et la covariance W est évaluée à ; est une constante de normalisation.
Supposons que le rôle du véhicule en interaction reste inchangé pendant la fusion, c'est-à-dire la croyance a posteriori du rôle de leader ou de suiveur du véhicule en interaction lorsque, lorsque
Il peut être mis à jour à l'aide de l'équation suivante :
où est la croyance préalable dans le rôle de leader ou de suiveur du véhicule interactif.
Stratégie de contrôle pour l'interaction multi-véhicules
Lorsque la circulation est dense, il peut y avoir plusieurs véhicules sur l'autoroute qui interfèrent avec la fusion du propre véhicule, comme le montre la figure 1. Une solution peu complexe consiste pour le véhicule autonome à considérer uniquement les interactions avec le premier véhicule, puis à commencer à interagir avec le deuxième véhicule après le départ du premier véhicule. Cependant, cela peut entraîner un retard dans l'estimation des intentions du véhicule suivant, faisant perdre à son propre véhicule la possibilité de fusionner.
Une autre solution consiste à interagir avec plusieurs véhicules en même temps. A ce stade, un modèle doit être construit pour prédire le comportement du véhicule interactif. Bien que le jeu leader-suiveur à 2 joueurs décrit dans la section 3 puisse être étendu à un jeu leader-suiveur multi-joueurs en considérant des hiérarchies de prise de décision à plusieurs niveaux, la complexité du modèle augmentera de façon exponentielle à mesure que le nombre de joueurs augmente. Lorsqu’il y a plus de 3 joueurs, il est difficile d’obtenir l’équilibre de Stackelberg [42]. Par conséquent, nous proposons une méthode informatiquement exploitable pour étendre le cadre aux interactions multi-véhicules en considérant les interactions par paires.
Lorsqu'il y a m véhicules en interaction, nous considérons l'interaction par paire entre le propre véhicule et chaque véhicule en interaction, puis construisons m états de trafic contenant le propre véhicule et le k-ème autre état du véhicule, exprimés par , , le modèle dynamique de chacun est donné par :
De même, nous pouvons utiliser {leader, follower} pour représenter le leader par paire du kème véhicule en interaction Ou le rôle de follower, soit représente l'ensemble de tous les états de circulation et actions précédents du véhicule autonome, c'est-à-dire
Ensuite, nous pouvons utiliser (19) pour mettre à jour chaque véhicule en interaction La croyance dans le rôle de leader ou suiveur, ,
{leader, suiveur}. La stratégie de contrôle basée sur MPC dans (6) peut être reformulée comme suit :
où, est la première entrée de contrôle correspondant à la trajectoire de la stratégie d'entraînement dans (12 ), ε∈[0,1] représente le niveau de probabilité de satisfaction de contrainte requis (spécifié par l'utilisateur). L'attente de
dans la fonction objectif peut être résolue selon (23) ;
où, est l'état de trafic prévu pour un véhicule en interaction donné dont le rôle est , et la dernière contrainte en (22) peut être dépassée,
où, est la fonction indicatrice de b dans l'ensemble B. Notez que la dernière contrainte de (22) applique la condition suivante,
, ce qui signifie que la probabilité qu'une paire d'interactions entre dans un état dangereux (par exemple, collision et sortie de la limite de la route) est inférieure à ε .
Pour dériver (26), on représente d'abord l'événement puis
puis on applique la dernière contrainte dans (22), on obtient
La principale différence entre (6) et (22) est la suivante :
1) Ceux de (6) sont inconnus, tandis que dans (22), ils sont obtenus sur la base de la stratégie d'apprentissage par imitation ;
2) Changez la maximisation de la récompense cumulée en (6) par la maximisation de la récompense cumulée attendue en (22) pour expliquer les croyances probabilistes du rôle de leader/suiveur du véhicule interactif
3) La récompense cumulée attendue est remplacée par la somme des récompenses attendues de toutes les interactions par paires pour tenir compte du comportement incertain de plusieurs véhicules (pour faciliter le calcul
4) La contrainte dure devient une contrainte de probabilité, avec ε∈ ; [0, 1] est un paramètre.
L'algorithme de prise de décision procède comme suit : à l'instant d'échantillonnage t, le véhicule de l'ego mesure l'état actuel de chaque ensemble de paires en interaction et les ajoute au vecteur d'observation avec les entrées de contrôle précédentes. Les croyances sur le rôle de leader ou de suiveur de chaque véhicule sont mises à jour conformément à (19). Ensuite, en utilisant la stratégie de contrôle basée sur MPC (22), la trajectoire optimale est obtenue en recherchant toutes les trajectoires introduites dans la section 2-D, et le véhicule de l'ego met à jour son état en appliquant la première entrée de contrôle au cours d'une période d'échantillonnage. L’ensemble du processus sera répété lors du prochain prélèvement d’échantillon.
Il convient de noter que la stratégie de contrôle (22) est « sensible aux interactions » pour les raisons suivantes :
1) Elle est basée sur le modèle de théorie des jeux leader-suiveur (8)-(11 ) qui prédit différentes trajectoires de sa voiture sous intention interactive.
2) Ces prédictions sont en boucle fermée. Plus précisément, correspondant aux différentes planifications de trajectoire du propre véhicule, la prédiction de trajectoire d'autres véhicules ayant des intentions spécifiques est également différente. Cette situation est due au fait que le comportement prévu des autres véhicules dépend de l'état du trafic, et l'état du trafic prévu dépend de la trajectoire prévue du propre véhicule.
3) La fonction objectif dans (22) est une attente conditionnelle, et la contrainte représentant la sécurité est une probabilité conditionnelle, toutes deux basées sur la dernière estimation des intentions des autres voitures (c'est-à-dire leader ou suiveur),
. Dans le même temps, l’intention de l’autre voiture est estimée sur la base de son comportement d’interaction antérieur.
05 Résultats de simulation et de vérificationNous validons d'abord LFGC dans un jeu leader-suiveur utilisant des véhicules interactifs contrôlés soit par le leader, soit par le suiveur. Nous avons ensuite testé LFGC avec des véhicules interactifs contrôlés par d'autres types de conducteurs ou des données de trafic réelles. De plus, nous avons testé le cas où un véhicule interactif (IDM) était contrôlé par un modèle de conducteur intelligent et le véhicule interactif suivait les données réelles de trafic sur l'US Highway 101 provenant du site de simulation de nouvelle génération [34]. Nos simulations ont été réalisées sur la plateforme MATLAB R2019a sur un PC équipé d'un processeur Intel Xeon E3-1246 v3 à 3,50 GHz et de 16 Go de mémoire.
Véhicule interactif modèle leader-suiveur
Nous utilisons d'abord le leader/suiveur pour simuler et contrôler le véhicule interactif et tester le LFGC. Le scénario que nous envisageons est illustré à la figure 4. Le véhicule autonome (bleu) dans la voie d'accélération doit fusionner sur l'autoroute avant la fin de la voie d'accélération, tandis que de nombreux autres véhicules (rouge, rose, vert) sont actuellement sur la voie d'accélération. autoroute. Conduite sur autoroute. Comme le montre la figure 4, le véhicule autonome démarre le processus de fusion forcée en déviant vers les marquages de voie et en faisant clignoter le clignotant. Dans ce cas, le véhicule autonome doit interagir avec d’autres véhicules pour réaliser une fusion en toute sécurité.
Figure 4 Diagramme de la scène de vérification LFGC du leader/suiveur contrôlant le véhicule interactif dans le scénario de fusion forcée sur l'autoroute
Après le test, le véhicule autonome peut = identifier correctement l'intention du véhicule interactif (qui c'est-à-dire qu'il peut diviser correctement l'interaction (les autres voitures sont des leaders/suiveurs)
Figure 5 Résultats de l'interaction d'autres voitures utilisant LFGC avec différentes combinaisons de leaders et de suiveurs
(a) Autres voitures sont trois leaders
(b) L'autre voiture est composée de 1 leader (véhicule 1) et de 2 suiveurs (véhicules 2 et 3)
(c) L'autre voiture est composée de deux leaders (véhicule 1 et 3) ; 2) et un suiveur (véhicule 3)
(d) L'autre voiture a trois suiveurs.
La colonne de gauche (a-1) à (d-1) montre la confiance de la voiture autonome dans le leader de sa voiture dans le jeu. Les colonnes de droite (a-2) à (d-2) montrent les résultats historiques du comportement du propre véhicule et des autres véhicules au cours de ce processus de fusion forcée. Plus précisément, dans la colonne de droite, la couleur de la ligne de démarcation de chaque bloc distingue les différents véhicules, le nombre dans le bloc représente le temps en secondes, la couleur de chaque bloc décrit la vitesse du véhicule à ce moment et la ligne pointillée bleue représente la trajectoire du véhicule autonome. Notez que les véhicules 1 à 3 ont la même position longitudinale, un certain décalage longitudinal a été ajouté à la figure pour une meilleure différenciation.
Pour LFGC, la plage de planification est N = 4 et le paramètre de contrainte aléatoire est ε = 0,1. Notez qu'un N plus grand peut entraîner de meilleures performances à long terme mais également des temps de calcul plus longs, tandis qu'un N plus petit peut mettre l'accent sur le bénéfice immédiat et donc ne pas être combiné dans de nombreux cas. Pour les fusions d'autoroutes forcées envisagées dans cet article, N doit généralement être choisi de telle sorte qu'il dépasse la durée du changement de voie (c'est-à-dire ).
La figure 5(a) montre les résultats lorsque la voiture de l'ego interagit avec trois dirigeants. Le véhicule autonome est capable de capturer l'intention des véhicules en interaction, c'est-à-dire que tous les véhicules sont plus susceptibles de devenir des leaders dans le jeu, comme le montre la figure 5(a-1). Après avoir obtenu ces informations, le véhicule autonome décide de ralentir après t = 1 [s] et attend de fusionner après le passage de tous les véhicules en interaction.
Lorsque la voiture autonome interagit avec un leader (véhicule 1) et deux suiveurs (véhicules 2 et 3), la voiture autonome identifie correctement l'intention des véhicules en interaction, comme le montre la figure 5(b-1). . Ensuite, après t = 1 [s], le véhicule autonome commence à décélérer et fusionne avec succès entre le véhicule 1 et le véhicule 2, comme le montre la figure 5 (b-2). Comme le montre la figure 5, (c) est le résultat de l'interaction entre le véhicule autonome et deux leaders (véhicules 1 et 2) et un suiveur (véhicule 3).
Dans ce cas, le véhicule de l'ego observe les véhicules 1 et 2 accélérer sans céder, donc le véhicule de l'ego décide de ralentir et de fusionner entre les véhicules 2 et 3. Nous avons également effectué des tests lorsque la voiture autonome interagissait avec trois suiveurs, et les résultats sont présentés dans la figure 5 (d). La voiture autonome a observé tous les véhicules générant une intention, accélérés et fusionnés devant tous les véhicules en interaction. Le temps de calcul moyen pour résoudre (22) est de 0,182 [s] à chaque pas de temps.
Pour tous les cas représentés sur la figure 5, les croyances initialisées sont les mêmes, ce qui signifie que la voiture autonome ne sait pas à l'avance si le véhicule interactif est un leader ou un suiveur. Par conséquent, le véhicule du moi s’appuie sur ses observations pour estimer le rôle leader/suiveur du vecteur d’interaction. Dans le jeu leader-suiveur, lorsque tous les véhicules interactifs sont contrôlés par le leader/suiveur, LFGC peut capturer les intentions des véhicules interactifs et prendre les décisions correspondantes.
L'autre voiture adopte le modèle IDM type d'interaction
Les résultats de vérification présentés dans la section 5-A supposent que les autres voitures prennent des décisions basées sur le jeu leader-suiveur. LFGC estime le rôle des autres pilotes dans le jeu et prend des décisions en conséquence. Cela signifie que l'environnement de la section 5-A se comporte comme prévu par LFGC. Cependant, le comportement réel des autres conducteurs peut différer de la politique du jeu leader-suiveur. Par conséquent, nous étudions plus en détail comment le cadre réagit lorsque d’autres véhicules utilisent un modèle de conducteur intelligent (IDM).
Dans cette section, utilisez IDM pour contrôler d'autres voitures et interagir avec votre propre voiture. Le véhicule du moi est toujours contrôlé par le LFGC et tente d'estimer les intentions des véhicules en interaction en estimant leurs rôles de leader ou de suiveur correspondants. IDM est un modèle de suivi de voiture en temps continu, défini par (27) à (29) [43].
où est la position longitudinale ; est la vitesse longitudinale ; est la vitesse attendue du véhicule ; la distance suivante,
est le véhicule cible La position de Parmi eux, sont les paramètres du modèle IDM. L'interprétation physique de ces paramètres est l'accélération maximale , la distance minimale de suivi du véhicule
, le temps T souhaité et la décélération confortable b. Nous avons considéré le scénario présenté dans la figure 6 comme un test de validation. Sur la figure 6, tous les véhicules sont précédés d'un autre véhicule (véhicule noir 4) circulant à vitesse constante. Le véhicule de l'ego est toujours le même que la section V-A et est contrôlé par le LFGC, ce qui signifie que du point de vue du véhicule de l'ego, il joue à un jeu leader-suiveur avec tous les véhicules en interaction. Pour ces trois véhicules en interaction (Véhicule 1 à 3), ils sont pilotés par IDM, en suivant le véhicule précédent (Véhicule 4) ou le propre véhicule avec une certaine avance de temps t. Les paramètres du modèle IDM sont répertoriés dans le tableau 1. A noter que le véhicule autonome traite le véhicule 4 comme le véhicule de l'environnement et suppose qu'il se déplace à une vitesse constante.
Figure 6 Lorsque l'autre voiture suit l'IDM, la propre voiture utilise LFGC pour terminer la scène de fusion forcée
Tableau 1 Paramètres du modèle de pilote intelligent
La figure 7 montre les résultats lorsque le propre véhicule interagit avec d'autres véhicules contrôlés par IDM avec différents véhicules cibles et différents moments souhaités.
Figure 7 : Résultats d'interaction de LFGC pour d'autres véhicules avec des cibles et des temps attendus différents contrôlés par IDM
(a) Le véhicule 1 génère (en suivant son propre véhicule) une progression temporelle T = 1 [s], le véhicule 2 et le véhicule 3 suivent T = 0,5 [s]
(b) Le véhicule 2 génère (en suivant son propre véhicule) T=0,5[s], les véhicules 1 et 3 suivent le véhicule précédent T = 0,5 [ s] ;
(c) Tous les véhicules suivent le véhicule précédent avec T = 0,5 [s] (d) Tous les véhicules suivent le véhicule précédent avec T = 1,5 [s].
La colonne de gauche (a-1) à (d-1) montre la confiance de la voiture autonome dans le leader de sa voiture dans le jeu. Les colonnes de droite (a-2) à (d-2) montrent les résultats historiques du comportement de soi et des autres véhicules au cours de ce processus de fusion forcée. Plus précisément, dans la colonne de droite, la couleur de la ligne de démarcation de chaque bloc distingue les différents véhicules, le nombre dans le bloc représente le temps en secondes, la couleur de chaque bloc décrit la vitesse du véhicule à ce moment et la ligne pointillée bleue représente la trajectoire du véhicule autonome.
Dans la figure 7(a), le premier véhicule interactif (véhicule 1) a l'intention de céder le passage à son propre véhicule, il choisit donc de suivre son propre véhicule qui avance en 1 seconde, tandis que les deux derniers véhicules interactifs se suivent. -véhicule qui avance en 0,5 seconde véhicule devant. Comme le montre la figure 7 (a-1), la voiture autonome estime que le véhicule 1 a une forte probabilité de devenir un suiveur dans le jeu et choisit de fusionner devant le véhicule 1, comme le montre la figure 7 (a-1). -2).
La figure 7(b) montre une autre situation, c'est-à-dire que le premier véhicule interactif (véhicule 1) avance de 0,5, et le deuxième véhicule interactif a l'intention de céder à son propre véhicule et avance de 0,5 pour suivre son propre véhicule. Ainsi, dans ce cas, du point de vue du véhicule autonome, le véhicule 1 a une plus grande probabilité de devenir le leader du jeu, et le véhicule 2 a une plus grande probabilité de devenir un suiveur du jeu. Par conséquent, dans ce cas, le véhicule autonome a une probabilité plus élevée de devenir le leader du jeu. véhicule autonome La voiture a fusionné avec succès devant le véhicule 2.
Les deux autres cas de non-rendement sont présentés dans les figures 7(c) et (d). La figure 7(c) montre les résultats pour tous les véhicules en interaction suivant le véhicule précédent. Du point de vue du véhicule autonome, tous les véhicules en interaction sont plus susceptibles de devenir des leaders dans le jeu, de sorte que la voiture autonome peut fusionner avec succès une fois que tous les véhicules sont passés.
Dans la figure 7(d), tous les véhicules en interaction avancent à une vitesse de 1,5 seconde. Dans ce cas, le véhicule autonome constate que le véhicule 2 se comporte de manière conservatrice et estime que le véhicule 2 a une plus grande probabilité de devenir un suiveur dans le jeu. Par conséquent, le véhicule autonome fusionne avec succès entre le véhicule 1 et le véhicule 2. Le temps de calcul moyen pour résoudre (22) est de 0,198 [s] à chaque pas de temps.
Autres véhicules suivant les données de trafic réelles
Nous avons testé LFGC sur d'autres voitures conduites par un leader/suiveur et des modèles IDM dans des jeux leader-suiveur. Nous voulions tester davantage les performances du contrôleur en utilisant des données de trafic réelles. Plus précisément, nous utilisons l'ensemble de données de trafic sur l'US Highway 101 du site Web Next Generation Simulation (NGSIM) [34], qui est collecté par la Federal Highway Administration des États-Unis et est considéré comme l'une des plus grandes sources publiques de données de conduite naturaliste. L’ensemble de données US Highway 101 a été largement étudié dans la littérature [44], [45], [46].
Plus précisément, nous considérons une partie de l'ensemble de données de trafic US 101, qui contient 30 minutes de trajectoires de véhicules sur l'autoroute US 101. La plage horaire est de 7h50 à 8h20 du matin, ce qui représente la congestion avant et après l'heure de pointe du matin. L'ensemble de données contient les trajectoires de position et de vitesse ainsi que les dimensions des véhicules d'environ 6 000 véhicules, avec des informations enregistrées toutes les 0,1 [s]. Une vue aérienne de la section de l'US Highway 101 utilisée pour la collecte de données est présentée à la figure 8. Le segment étudié comprenait les cinq voies principales de l'autoroute, une bretelle d'accès à l'autoroute, une bretelle de sortie de l'autoroute et une voie auxiliaire pour rejoindre l'autoroute et en sortir.
Comme discuté dans [47], l'ensemble de données US101 contient une quantité importante de bruit dû à l'analyse vidéo et à la différenciation numérique. Pour surmonter cette lacune, nous utilisons le filtre Savitsky-Gorey [48] pour lisser la position du véhicule et mettre à jour sa vitesse correspondante. Le filtre Savitzky-Golay fonctionne bien sur l'ensemble de données US101 avec une longueur de fenêtre temporelle de 21 [45]. Une trajectoire originale du véhicule et la trajectoire lissée correspondante du véhicule sont représentées sur la figure 9.
Figure 8 Vue aérienne de l'autoroute utilisée pour collecter les données de trafic US 101 [34]
Cette section comprend cinq voies principales de l'autoroute et une menant à l'autoroute . une rampe d'accès, une rampe de sortie pour sortir de l'autoroute et une voie auxiliaire pour entrer et sortir de l'autoroute.
Figure 9 Trajectoires fluides des véhicules à partir de l'ensemble de données de trafic US 101 à l'aide du filtre Savitsky-Gorey
Pour le test de validation du LFGC, nous nous concentrons sur la bretelle d'accès et les voies auxiliaires, pour identifier tous les véhicules fusionnés. Après avoir identifié les véhicules fusionnés et les scénarios correspondants, nous identifions les véhicules en interaction selon la figure 10. Plus précisément, nous considérons le premier véhicule dans la voie cible dans un délai de 2 secondes comme le premier véhicule en interaction, et les véhicules consécutifs comme les deuxième et troisième véhicules. Pour tous les autres véhicules présents dans la scène, le véhicule autonome les traitera comme des véhicules environnementaux et supposera qu'ils se déplacent à vitesse constante. Un scénario de fusion identifié est présenté à la figure 11.
Figure 10 Sélection de véhicules interactifs : la voiture autonome (véhicule bleu) utilise le véhicule dans la boîte de sélection (boîte rouge) comme véhicule interactif
L'avant du La boîte de sélection se trouve devant la progression temporelle de la voiture autonome 2. Le premier véhicule sur la voie cible dans la zone de sélection est le premier véhicule interactif, et les véhicules suivants sont les deuxième et troisième véhicules interactifs. Pour tous les autres véhicules circulant sur l’autoroute, ils sont traités comme des véhicules ambiants et supposés maintenir une vitesse constante.
Figure 11 Un scénario fusionné déterminé à partir de l'ensemble de données de trafic US 101
Dans ce scénario, le véhicule 0 (véhicule bleu) est le véhicule fusionné, et nous laissons LFGC contrôler le véhicule 0. Selon nos critères de sélection des véhicules interactifs, le véhicule 1 (véhicule rouge) et le véhicule 2 (véhicule rose) sont sélectionnés comme véhicules interactifs, et tous les autres véhicules (véhicules noirs) sont considérés comme des véhicules environnementaux, en supposant qu'ils roulent à une vitesse fixe. .
Pour chaque scénario fusionné, au lieu de laisser le véhicule autonome suivre les données de trafic, nous utilisons LFGC pour contrôler le comportement du véhicule autonome et la trajectoire qui en résulte. Pour tous les autres véhicules, y compris les véhicules en interaction et les véhicules ambiants, ils suivent les trajectoires correspondantes telles qu'elles apparaissent dans l'ensemble de données de trafic US 101. Le LFGC doit ensuite estimer les intentions des véhicules en interaction et contrôler le véhicule autonome pour qu'il fusionne de manière appropriée. Notez que lors de la collecte de données, les véhicules en interaction et ambiants peuvent interagir avec les véhicules en fusion pendant le trafic réel. Puisque 1) le LFGC peut agir différemment de l’opération humaine, le comportement du véhicule interactif ou du véhicule environnemental ne répond pas au comportement du véhicule autonome. Au lieu de cela, leur comportement est prédéterminé par l'ensemble des données de trafic, des mesures prudentes doivent donc être prises pour éviter les collisions ; 2) Le trafic est dense, ne laissant aucune marge de sécurité aux véhicules autonomes pour fusionner sans croiser les collisions d'autres véhicules.
Tableau 2 : Vérification des statistiques LFGC à l'aide de l'ensemble de données de trafic US101
« Réussi » signifie que le véhicule autonome a réussi à fusionner dans la voie cible sans aucune collision. « Échec de la fusion » signifie que votre propre véhicule ne peut pas fusionner à la fin de la voie auxiliaire. « Collision » fait référence à une collision entre votre propre véhicule et un autre véhicule. Enfin, l'auteur a pris une capture d'écran du processus de fusion pour analyse.
Dans la figure 12, nous montrons une capture d'écran d'une fusion réussie. Dans ces figures, le véhicule bleu est contrôlé par LFGC et la case grise représente la position réelle du véhicule autonome dans l'ensemble de données. Tous les autres véhicules (y compris les véhicules interactifs rouges et les véhicules environnementaux noirs) suivent leurs trajectoires correspondantes dans l'ensemble de données. Le véhicule autonome contrôlé par le LFGC prend des décisions similaires à celles du conducteur humain (case grise) : le LFGC et le conducteur humain tentent d'abord d'accélérer et de fusionner devant le camion (véhicule 1). Cependant, après avoir réalisé que le camion était plus susceptible de continuer à ne pas céder, le véhicule autonome a décidé de ralentir et de se fondre derrière le camion.
Figure 12 Description d'une fusion réussie lors de la vérification de LFGC sur l'ensemble de données US Highway 101
où le véhicule bleu est le véhicule autonome contrôlé par LFGC, et la case grise est dans les données La position de la voiture autonome qui apparaît.
Dans cet article, nous avons proposé un contrôleur de jeu leader-suiveur (LFGC) pour la planification et le contrôle de véhicules autonomes dans des scénarios fusionnés. LFGC prend l'incertitude d'interaction causée par les différentes intentions des conducteurs comme variable latente, estime les intentions des autres conducteurs et sélectionne les actions pour promouvoir la fusion des véhicules autonomes. En particulier, LFGC est capable d'implémenter une propriété de sécurité probabiliste explicite, c'est-à-dire soumise aux contraintes de sécurité du véhicule.
En considérant l'interaction par paire entre le véhicule autonome et le véhicule en interaction, LFGC est capable de gérer les interactions avec plusieurs véhicules de manière calculable. Enfin, plusieurs vérifications basées sur des simulations sont effectuées pour démontrer l'efficacité du LFGC, y compris des scénarios dans lesquels d'autres voitures suivent le leader ou le suiveur dans le jeu, un modèle de conducteur intelligent (IDM) et des données réelles de l'US Highway 101.
Cet article est traduit de
"Prédiction et planification de trajectoires sensibles aux interactions pour les véhicules autonomes dans des scénarios de fusion forcée"
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!