Maison > Article > Périphériques technologiques > Berkeley a mis en open source le premier ensemble de données haute définition et le premier modèle de prédiction dans les scénarios de stationnement, prenant en charge la reconnaissance de cibles et la prédiction de trajectoire.
Alors que la technologie de conduite autonome continue d'évoluer, le comportement du véhicule et la prédiction de trajectoire revêtent une importance extrêmement importante pour une conduite efficace et sûre. Bien que les méthodes traditionnelles de prédiction de trajectoire telles que la déduction de modèles dynamiques et l’analyse d’accessibilité présentent les avantages d’une forme claire et d’une forte interprétabilité, leurs capacités de modélisation de l’interaction entre l’environnement et les objets sont relativement limitées dans des environnements de trafic complexes. Ainsi, ces dernières années, un grand nombre de recherches et d'applications ont été basées sur diverses méthodes d'apprentissage profond (telles que LSTM, CNN, Transformer, GNN, etc.) et divers ensembles de données tels que BDD100K, nuScenes, Stanford Drone, ETH. /UCY, INTERACTION, ApolloScape, etc. ont également émergé, fournissent un support solide pour la formation et l'évaluation de modèles de réseaux neuronaux profonds tels que GroupNet, Trajectron++, MultiPath, etc.
Les modèles et ensembles de données ci-dessus sont concentrés dans des scénarios de conduite routière normale et utilisent pleinement les infrastructures et les fonctionnalités telles que les lignes de voie et les feux de circulation pour faciliter le processus de prévision en raison des limitations des règles de circulation et des schémas de mouvement ; de la plupart des véhicules sont également limités. Plus clair. Cependant, dans le « dernier kilomètre » des scénarios de conduite autonome et de stationnement autonome, nous serons confrontés à de nombreuses nouvelles difficultés :
Lors de la 25e Conférence internationale de l'IEEE sur les systèmes de transport intelligents (IEEE ITSC 2022) qui vient de se terminer en octobre 2022, des chercheurs de l'Université de Californie à Berkeley ont publié la première vidéo haute définition d'une scène de stationnement. ensemble de données de trajectoire, et sur la base de cet ensemble de données, un modèle de prédiction de trajectoire nommé "ParkPredict+" a été proposé en utilisant l'architecture CNN et Transformer.
L'ensemble de données a été collecté par un drone, avec une durée totale de 3,5 heures, une résolution vidéo de 4K et un taux d'échantillonnage de 25 Hz. La vue couvre une superficie de parking d'environ 140 mx 80 m, avec un total d'environ 400 places de stationnement. L'ensemble de données est annoté avec précision et un total de 1 216 véhicules à moteur, 3 904 vélos et 3 904 trajectoires de piétons ont été collectés.
Après retraitement, les données de trajectoire peuvent être lues sous forme de JSON et chargées dans la structure de données du graphe de connexion (Graph) :
L'ensemble de données est disponible en deux formats de téléchargement :
JSON uniquement (recommandé) : les fichiers JSON contiennent le type, la forme, la trajectoire et d'autres informations de tous les individus, et peuvent être téléchargés via le Python open source L'API lit directement , prévisualise et génère des images sémantiques (images sémantiques). Si l’objectif de recherche est uniquement la prédiction de trajectoires et de comportements, le format JSON peut répondre à tous les besoins.
Vidéo originale et annotation : Si la recherche est basée sur des sujets de champ de vision industrielle tels que la détection, la séparation et le suivi de cibles basés sur l'image brute de la caméra (Raw Image), alors vous devrez peut-être télécharger la vidéo originale et l'étiquette. Si cela est nécessaire, la recherche doit être clairement décrite dans la demande d’ensemble de données. De plus, le fichier d'annotation doit être analysé lui-même.
À titre d'exemple d'application, dans l'article "ParkPredict+ : Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer" à l'IEEE ITSC 2022, l'équipe de recherche a utilisé ces données ensemble, sur la base de l'architecture CNN et Transformer, la prédiction de l'intention (Intent) et de la trajectoire (Trajectory) du véhicule dans la scène du parking est réalisée.
L'équipe a utilisé le modèle CNN pour prédire la probabilité de distribution de l'intention du véhicule (Intent) en créant des images sémantiques. Ce modèle n'a besoin que de construire des informations environnementales locales du véhicule et peut modifier en permanence le nombre d'intentions disponibles en fonction de l'environnement actuel.
L'équipe a réalisé une prédiction multimodale d'intention et de comportement en améliorant le modèle Transformer et en fournissant les résultats de prédiction d'intention, l'historique des mouvements du véhicule et la carte sémantique de l'environnement environnant en entrée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!