Maison >Périphériques technologiques >IA >En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant
2024-05-08 14:49:12857parcourir

Tout le monde ne peut pas comprendre que la Tesla V12 a été largement promue en Amérique du Nord et a gagné de plus en plus de reconnaissance auprès des utilisateurs en raison de ses excellentes performances. La conduite autonome de bout en bout est également devenue la direction technique qui préoccupe le plus tout le monde. l'industrie de la conduite autonome. Récemment, j'ai eu l'occasion d'avoir des échanges avec des ingénieurs, des chefs de produits, des investisseurs et des médias de premier ordre dans de nombreux secteurs. J'ai constaté que tout le monde est très intéressé par la conduite autonome de bout en bout, mais même dans certains domaines. compréhension de base de la conduite autonome de bout en bout, il existe encore des malentendus de ce genre. En tant que personne ayant eu la chance de découvrir la fonction City avec et sans images d'une marque nationale de premier rang, ainsi que les deux versions de FSD V11 et V12, je voudrais ici parler de quelques développements actuels basés sur mon expérience professionnelle et suivi des progrès de Tesla FSD au fil des ans. Au cours de cette étape, tout le monde a parlé de malentendus courants sur la conduite autonome de bout en bout et a donné ma propre interprétation de ces problèmes.

Doute 1 : la perception de bout en bout, la prise de décision et la planification de bout en bout peuvent-elles être considérées comme une conduite autonome de bout en bout ?

Toutes les étapes depuis l'entrée du capteur jusqu'à la planification, puis la sortie du signal de contrôle sont dérivables de bout en bout, de sorte que l'ensemble du système puisse être formé comme un grand modèle, via un entraînement par descente de gradient et une rétropropagation de gradient pendant l'entraînement du modèle, les paramètres. sont mis à jour et optimisés dans tous les aspects du modèle, de l'entrée à la sortie, afin que le comportement de conduite de l'ensemble du système puisse être optimisé pour la trajectoire de décision de conduite directement perçue par l'utilisateur. Récemment, certains amis ont affirmé qu'ils effectuaient une détection de bout en bout ou une prise de décision de bout en bout lorsqu'ils promouvaient la conduite autonome de bout en bout. En fait, je pense que les deux ne peuvent pas être considérés comme de bout en bout. mettre fin à la conduite autonome, mais ne peut être considérée que comme une conduite autonome de bout en bout. C'est ce qu'on appelle une perception purement basée sur les données et une planification décisionnelle purement basée sur les données.

Certains peuvent prendre des décisions basées sur un modèle spécifique combiné à une stratégie hybride de méthodes traditionnelles d'optimisation de la trajectoire de la somme de contrôle de sécurité, également connue sous le nom de planification de bout en bout. De plus, certaines personnes pensent que Tesla V12 n'est pas un signal de contrôle de sortie de modèle purement précis, mais une stratégie hybride combinant certaines méthodes de règles. Selon le célèbre Green sur http://X.com, il a posté il y a quelque temps un tweet disant que le code des règles se trouve encore dans la pile technologique V12. D'après ce que je comprends, le code découvert par Green est probablement le code de la version V11 retenu par la pile technologique à grande vitesse V12, car nous savons qu'actuellement, la V12 ne remplace en fait que la pile technologique originale de la ville par du bout en bout, et le haut débit utilisera toujours la solution V11, donc trouver des fragments de code normal dans le code démêlé ne signifie pas que V12 est faux "de bout en bout", mais il est probable que le code trouvé soit à haut débit code. En fait, nous pouvons voir lors de l'AI+Day en 2022 que la V11 et les versions précédentes sont déjà des solutions hybrides. Par conséquent, si la V12 n'est pas un modèle complet tout droit sorti de la piste, alors la solution ne sera pas très différente des versions précédentes. De cette manière, il n’y a aucune explication raisonnable à l’augmentation des performances du V12. Pour les projets précédents de Tesla, veuillez vous référer à mon interprétation de EatElephant lors de l'AI+Day : Tesla AI Day 2022 -- Interprétation des mots du monde : il a appelé le Gala de la Fête du Printemps autonome, une équipe de R&D décentralisée, et est impatient de se transformer en un Entreprise de technologie IA.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

À en juger par l'AI Day 2022, la V11 est déjà une solution de planification mélangée à NN Planner

En général, qu'il s'agisse de code de post-traitement de perception, de notation de trajectoire de candidat à une règle ou même de stratégies de poche de sécurité, une fois la règle le code est introduit et il y a une branche if else, la transmission stable de l'ensemble du système sera tronquée, ce qui fera également perdre le plus grand avantage du système de bout en bout pour obtenir une optimisation globale grâce à la formation.

Doute 2 : Le bout en bout est-il une réinvention de la technologie précédente ?

Un autre malentendu courant est que de bout en bout consiste à renverser la technologie précédemment accumulée et à mener une innovation technologique approfondie, et beaucoup de gens pensent que depuis que Tesla vient de pousser les utilisateurs du système de conduite autonome de bout en bout , les autres fabricants ne seront pas du tout en mesure de le mettre en œuvre. Il n'est pas nécessaire d'itérer sur la pile technologique modulaire d'origine de perception, de prédiction et de planification. Au lieu de cela, nous pouvons apprendre. des avantages des retardataires pour rattraper rapidement, voire dépasser Tesla. Il est vrai que l'utilisation d'un grand modèle pour compléter la cartographie depuis l'entrée du capteur jusqu'à la planification des signaux de contrôle est l'approche de bout en bout la plus approfondie. Les entreprises ont également essayé des méthodes similaires depuis longtemps. Par exemple, DAVE-2 et Wayve de Nvidia. ont utilisé des méthodes similaires. Cette technologie approfondie de bout en bout est en effet plus proche d'une boîte noire et est difficile à déboguer et à optimiser de manière itérative, car les signaux d'entrée des capteurs tels que les images et les nuages ​​de points sont des espaces d'entrée de très grande dimension, des signaux de contrôle de sortie. tels que l'angle du volant et la commande des gaz. La pédale mobile est un espace de sortie de dimension relativement faible, ce qui la rend complètement inutilisable pour les tests réels du véhicule.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

Le système complet de bout en bout utilisera également certaines tâches auxiliaires courantes telles que la segmentation sémantique et l'estimation de la profondeur pour aider à modéliser la convergence et le débogage

Donc, le FSD V12 que nous avons réellement vu conserve presque tout le contenu de visualisation précédent, ce qui montre que FSD V12 est formé de bout en bout sur la base originale de perception forte, et que l'itération FSD à partir d'octobre 2020 n'a pas été abandonnée, au contraire. , c'est devenu une base technique solide pour la V12. Andrej Karparthy a déjà répondu à des questions similaires. Bien qu'il n'ait pas été impliqué dans le développement du V12, il estime que toute l'accumulation technologique précédente n'a pas été abandonnée, mais a simplement été déplacée du devant vers les coulisses. Par conséquent, la navigation de bout en bout est progressivement réalisée sur la base de la technologie originale en supprimant étape par étape une partie du code de règle.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

V12 conserve presque toutes les perceptions de FSD et n'annule que le contenu visuel limité tel que les barils de cônes

Doute 3 : le bout en bout des articles universitaires peut-il être migré vers des produits réels ?

UniAD devenant le meilleur article CVPR 2023 représente sans aucun doute les attentes élevées de la communauté universitaire en matière de systèmes de conduite autonomes de bout en bout. Depuis que Tesla a introduit l'innovation de sa technologie de perception visuelle BEV en 2021, la communauté universitaire nationale a investi beaucoup d'enthousiasme dans la perception BEV de conduite autonome, et une série d'études ont vu le jour, promouvant l'optimisation des performances et le déploiement de la mise en œuvre des méthodes BEV, Ensuite, le processus de bout en bout peut-il suivre une voie similaire, menée par le monde universitaire et suivie par l'industrie, pour promouvoir la mise en œuvre itérative rapide d'une technologie de bout en bout dans les produits ? Je pense que c'est relativement difficile. Tout d'abord, la détection BEV est encore une technologie relativement modulaire, davantage au niveau de l'algorithme, et les performances d'entrée de gamme ne nécessitent pas un volume de données aussi élevé. Le lancement de l'ensemble de données académiques open source de haute qualité Nuscenes constitue un précurseur pratique pour. De nombreuses recherches BEV. Conditions, bien que la solution de détection BEV itérée sur Nuscenes ne puisse pas répondre aux exigences de performance au niveau du produit, elle a une grande valeur de référence en tant que preuve de concept et sélection de modèle. Cependant, le monde universitaire manque de données disponibles de bout en bout à grande échelle. Le plus grand ensemble de données Nuplan contient actuellement 1 200 heures de données réelles de collecte de véhicules dans 4 villes. Cependant, lors d'une réunion de rapport financier en 2023, Musk a déclaré que pour la conduite autonome de bout en bout, « 1 million de cas vidéo ont été formés et ». ça peut à peine fonctionner." ; 2 millions, c'est un peu mieux ; 3 millions, vous vous sentirez Wow ; quand il atteint 10 millions, sa performance devient incroyable. " Les données de retour du pilote automatique de Tesla sont généralement considérées comme un segment d'une minute, de sorte que le cas d'un million de vidéos d'entrée de gamme représente environ 16 000 heures, ce qui est au moins un ordre de grandeur supérieur au plus grand ensemble de données académiques. que Nuplan collecte des données en continu, donc dans les données Il y a des défauts fatals dans la distribution et la diversité. La plupart des données sont des scènes simples, ce qui signifie que l'utilisation d'ensembles de données académiques comme Nuplan ne peut même pas obtenir une version qui peut à peine monter dans le train.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

L'ensemble de données Nuplan est déjà un ensemble de données académiques à très grande échelle, mais l'exploration en tant que solution de bout en bout n'est peut-être pas suffisante

Nous voyons donc la grande majorité des systèmes autonomes de bout en bout conduite incluant UniAD Aucune des solutions ne peut être exécutée sur un véhicule réel, et nous ne pouvons recourir qu'à l'évaluation en boucle ouverte comme deuxième meilleure option. La fiabilité des indicateurs d'évaluation en boucle ouverte est très faible, car l'évaluation en boucle ouverte ne peut pas identifier le problème de confusion du modèle et de cause à effet, donc même si le modèle apprend seulement à utiliser l'extrapolation du chemin historique, il peut obtenir une très bonne boucle ouverte. indicateurs, mais un tel modèle est totalement indisponible. En 2023, Baidu a publié un article intitulé AD-MLP (https://arxiv.org/pdf/2305.10430) pour discuter des lacunes des indicateurs d'évaluation de la planification en boucle ouverte. Le papier n'a utilisé que des informations historiques, sans introduire aucune perception, il a obtenu de très bons indicateurs d'évaluation en boucle ouverte, même proches de certains travaux SOTA actuels. Cependant, il est évident que personne ne peut bien conduire une voiture les yeux fermés !

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

AD MLP obtient de bons indicateurs en boucle ouverte en ne s'appuyant pas sur des entrées sensorielles, ce qui montre que l'utilisation d'indicateurs en boucle ouverte comme référence a peu d'importance pratique

La vérification des politiques en boucle fermée peut-elle résoudre le problème de apprentissage par imitation en boucle ouverte ? Au moins pour l'instant, la communauté universitaire s'appuie généralement sur le système de simulation en boucle fermée CARLA pour la recherche et le développement de bout en bout, mais les modèles obtenus par CARLA basés sur des moteurs de jeu sont également difficiles à transférer dans le monde réel.

Doute 4 : La conduite autonome de bout en bout n’est-elle qu’une innovation algorithmique ?

En fin de compte, le bout en bout n'est pas seulement un nouvel algorithme. Les modèles des différents modules du système de conduite autonome modulaire peuvent être entraînés de manière itérative séparément en utilisant les données de leurs tâches respectives. Cependant, chaque fonction du système de bout en bout est entraînée en même temps, ce qui nécessite que les données d'entraînement soient entraînées. extrêmement cohérent et chaque élément de données doit être précis. Toutes les étiquettes de sous-tâches sont étiquetées. Une fois l'étiquetage d'une tâche échoué, il sera difficile d'utiliser ces données dans la tâche de formation de bout en bout. Cela impose des exigences extrêmement élevées en matière de réussite. taux et performances du pipeline d’étiquetage automatique. Deuxièmement, le système de bout en bout nécessite que tous les modules atteignent un niveau de performance élevé afin d'obtenir de meilleurs résultats dans les tâches de prise de décision et de planification de bout en bout. le système de bout en bout est beaucoup plus élevé que la demande de données de chaque module individuel, et le seuil de données n'est pas seulement l'exigence de quantité absolue, mais aussi la distribution et la diversité des données. Vous avez un contrôle total sur le véhicule et devez vous adapter à plusieurs fournisseurs avec des clients de différents modèles. Vous pouvez rencontrer de plus grandes difficultés lors du développement d'un système de bout en bout. Au seuil de la puissance de calcul, Musk a déclaré sur X.com début mars de cette année que le plus grand facteur limitant du FSD était la puissance de calcul. Récemment, Boss Ma a déclaré que leur problème de puissance de calcul avait été considérablement amélioré, presque en même temps. , lors de la réunion du rapport financier du premier trimestre 2024, Tesla a révélé qu'elle disposait désormais de 35 000 ressources informatiques H100, et a révélé que ce nombre atteindrait 85 000 d'ici la fin de 2024. Il ne fait aucun doute que Tesla dispose de capacités d'optimisation de la puissance de calcul très puissantes, ce qui signifie que pour atteindre le niveau actuel de FSD V12, il y a une forte probabilité que 35 000 H100 et des milliards de dollars en dépenses d'investissement en infrastructure soient des conditions préalables nécessaires. pas aussi efficace que Tesla, alors ce seuil pourrait être encore relevé.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

Début mars, Musk a déclaré que le principal facteur limitant dans l'itération du FSD était la puissance de calcul

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

Début avril, Musk a déclaré que l'investissement total de Tesla dans la puissance de calcul cette année dépasserait 10 milliards de dollars américains

Également sur http://X.com Un internaute a partagé une capture d'écran de Norm Marks, directeur de l'industrie automobile de Nvidia, lors d'une réunion cette année. On peut en déduire que d'ici fin 2023, le nombre de cartes graphiques NV détenues par Nvidia. Tesla est complètement écrasant sur l'histogramme. (La flèche verte à l'extrême droite de l'image de gauche, le texte au milieu explique que le nombre de cartes graphiques NV détenues par l'OEM n°1 est supérieur à 7 000 nœuds DGX. Cet OEM est évidemment Tesla. Chaque nœud est calculé comme 8 cartes, 23 D'ici la fin de l'année, Tesla aura probablement plus de 56 000 cartes graphiques A100, soit plus de quatre fois plus que le deuxième constructeur OEM. (incluons les 35 000 nouvelles cartes H100 achetées en 2024). Combiné à la politique restrictive des États-Unis sur l'exportation de cartes graphiques chinoises, il devient encore plus difficile de rattraper cette puissance de calcul.

En 2024, y aura-t-il des percées et des progrès substantiels dans la conduite autonome de bout en bout en Chine ?

Norm Marks a partagé une capture d'écran en interne, source : , comment détecter les problèmes le plus tôt possible, les résoudre de manière basée sur les données et itérer rapidement lorsque les codes de règles ne peuvent pas être utilisés est actuellement un défi inconnu pour la plupart des autonomes piloter les équipes R&D.

Le dernier bout en bout est encore un changement organisationnel pour l'équipe R&D actuelle de conduite autonome, car depuis la conduite autonome L4, la structure organisationnelle de la plupart des équipes de conduite autonome est modulaire et n'est pas seulement divisée en groupe de perception, groupe de prédiction, et le groupe de positionnement, le groupe de contrôle de planification et même le groupe de perception sont divisés en perception visuelle, perception laser, etc. L'architecture technique de bout en bout élimine directement les barrières d'interface entre les différents modules, ce qui oblige l'équipe R&D de bout en bout à intégrer toutes les ressources humaines pour s'adapter au nouveau paradigme technologique. Il s'agit d'un grand défi pour l'organisation inflexible de l'équipe. culture.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer