


Parlons de plusieurs grands modèles et concepts de conduite autonome devenus populaires récemment.
Diverses applications de grands modèles sont encore populaires récemment. Une série d'articles fantaisistes est apparue début octobre, essayant d'appliquer les grands modèles à la conduite autonome. J'ai récemment parlé de nombreux sujets connexes avec de nombreux amis. En écrivant cet article, d'une part, j'ai découvert que, y compris moi-même, dans le passé, nous avions en fait confondu des concepts très liés mais en réalité différents. D’un autre côté, il s’agit d’une extension de ces concepts. Il y a quelques réflexions intéressantes qui méritent d’être partagées et discutées avec tout le monde.
Grand modèle (langue)
C'est sans aucun doute la direction la plus populaire à l'heure actuelle, et elle fait également l'objet des journaux les plus concentrés. Comment les grands modèles linguistiques peuvent-ils contribuer à la conduite autonome ? D'une part, comme GPT-4V, il offre des capacités de compréhension sémantique extrêmement puissantes grâce à l'alignement avec des images, qui ne seront pas évoquées ici pour l'instant, d'autre part, il utilise LLM comme agent pour implémenter directement le comportement de conduite ; Cette dernière est en fait la direction de recherche la plus sexy à l’heure actuelle et est inextricablement liée à la série de travaux sur l’IA embarquée.
La plupart des derniers types de travaux vus jusqu'à présent utilisent le LLM : 1) directement utilisé 2) affiné grâce à l'apprentissage supervisé 3) affiné grâce à l'apprentissage par renforcement pour les tâches de conduite. En substance, il n’y a pas d’échappatoire au cadre paradigmatique précédent de la conduite basée sur des méthodes d’apprentissage. En fait, une question très directe est la suivante : pourquoi serait-il préférable d’utiliser le LLM pour ce faire ? Intuitivement parlant, utiliser des mots pour conduire est une chose inefficace et verbeuse. Puis un jour, j'ai soudain compris LLM implémente en fait un pré-entraînement pour l'agent via le langage ! L'une des raisons importantes pour lesquelles il était difficile pour RL de généraliser était qu'il était difficile d'unifier diverses tâches et d'utiliser diverses données communes pour le pré-entraînement. Chaque tâche ne pouvait être entraînée qu'à partir de zéro, mais LLM l'a très bien résolu. question. Mais en fait, il y a plusieurs problèmes qui ne sont pas bien résolus : 1) Après avoir terminé le pré-entraînement, le langage doit-il être conservé comme interface de sortie ? Cela apporte en fait beaucoup de désagréments à de nombreuses tâches et entraîne également dans une certaine mesure des calculs redondants. 2) L'approche du LLM en tant qu'agent ne résout toujours pas les problèmes essentiels de la méthode sans modèle RL existante, et tous les problèmes des méthodes sans modèle existent toujours. Récemment, nous avons également vu quelques tentatives basées sur un modèle + LLM en tant qu'agent, ce qui peut être une direction intéressante.
La dernière chose dont je veux me plaindre dans chaque article est la suivante : Il ne s'agit pas simplement de se connecter à LLM et de laisser LLM produire une raison pour rendre votre modèle interprétable. Cette raison peut encore être absurde. . . Des choses qui n'étaient pas garanties auparavant ne le deviendront pas simplement parce qu'une phrase est émise.
Grand modèle (visuel)
Le modèle visuel purement grand n'a en fait toujours pas vu ce moment magique «d'émergence». Lorsqu'on parle de grands modèles visuels, il existe généralement deux références possibles : l'une est un extracteur de fonctionnalités d'informations visuelles super puissant basé sur un pré-entraînement de données Web massives tel que CLIP ou DINO ou SAM, qui améliore considérablement la capacité de compréhension sémantique du modèle. L'autre fait référence au modèle conjoint de couples (image, action, etc...) mis en œuvre par le modèle mondial représenté par GAIA.
En fait, je pense que le premier n’est que le résultat d’une expansion linéaire continue selon les lignes traditionnelles. À l’heure actuelle, il est difficile d’entrevoir la possibilité de changements quantitatifs dans la conduite autonome. En fait, ce dernier est entré continuellement dans le champ de vision des chercheurs grâce à la publicité continue de Wayve et Tesla cette année. Lorsque les gens parlent de modèles mondiaux, ils incluent souvent le fait que le modèle est de bout en bout (produit directement des actions) et est lié au LLM. En fait, cette hypothèse est unilatérale. Ma compréhension du modèle mondial est également très limitée. Je voudrais recommander l'interview de Lecun et l'enquête RL basée sur un modèle de @Yu Yang, dans laquelle je n'entrerai pas plus en détail :
Yu Yang : En savoir plus sur le modèle environnemental (modèle mondial)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069
Conduite autonome visuelle pure
C'est en fait facile à comprendre et fait référence à un système de conduite autonome qui repose uniquement sur des capteurs visuels. C’est en fait le meilleur et ultime souhait de la conduite autonome : conduire avec une paire d’yeux comme un être humain. De tels concepts sont généralement associés aux deux grands modèles ci-dessus, car la sémantique complexe des images nécessite de fortes capacités d'abstraction pour extraire des informations utiles. Dans le cadre de la récente offensive publicitaire continue de Tesla, ce concept recoupe également le concept de bout en bout mentionné ci-dessous. Mais en fait, il existe de nombreuses façons d'obtenir une conduite purement visuelle, et de bout en bout en fait naturellement partie, mais ce n'est pas la seule. Le problème le plus difficile dans la réalisation d’une conduite autonome purement visuelle est que la vision est intrinsèquement insensible aux informations 3D, et les grands modèles n’ont pas fondamentalement changé cela. Cela se reflète spécifiquement dans : 1) La manière de recevoir passivement les ondes électromagnétiques rend la vision contrairement aux autres capteurs capables de mesurer des informations géométriques dans l'espace 3D. 2) La perspective rend les objets distants extrêmement sensibles aux erreurs ; Ceci est très peu convivial pour la planification et le contrôle en aval, qui sont implémentés par défaut dans un espace 3D à erreur égale. Cependant, conduire par la vision équivaut-il à être capable d’estimer avec précision la distance et la vitesse en 3D ? Je pense qu'il s'agit d'une question de représentation qui mérite une étude approfondie dans le cadre de la conduite autonome purement visuelle en plus de la compréhension sémantique.
Conduite autonome de bout en bout
Ce concept fait référence au signal de contrôle du capteur jusqu'à la sortie finale (en fait, je pense qu'il peut également inclure largement les informations de points de cheminement vers la planification des couches plus en amont) en utilisant une optimisation conjointe modèle. Il peut s'agir soit d'une méthode directe de bout en bout qui saisit les données de capteurs comme ALVINN dès les années 1980 et émet des signaux de contrôle directement via un réseau neuronal, soit d'une méthode de bout en bout par étapes comme le meilleur CVPR de cette année. papier UniAD. Cependant, un point commun de ces méthodes est que le signal de supervision aval peut être directement transmis à l'amont, au lieu que chaque module ait ses propres objectifs d'optimisation auto-définis. Dans l’ensemble, c’est une bonne idée. Après tout, le deep learning repose sur une telle optimisation conjointe pour faire fortune. Cependant, pour les systèmes tels que la conduite autonome ou les robots à usage général, qui sont souvent extrêmement complexes et traitent du monde physique, de nombreux problèmes doivent être surmontés en termes de mise en œuvre technique, d'organisation des données et d'efficacité d'utilisation.
Conduite autonome de bout en bout Feed-Forward
Ce concept semble être rarement évoqué, mais en fait je trouve que l'existence de bout en bout en elle-même est précieuse, mais le problème réside dans l'observation de l'utilisation de cette méthode Feed-Forward. Moi y compris, en fait, j'ai toujours pensé par défaut que la conduite de bout en bout doit être sous la forme de Feed-Forward, car 99 % des méthodes actuelles basées sur l'apprentissage profond supposent une telle structure, ce qui signifie que le résultat final préoccupant (tels que les signaux de commande)u = f(x), x correspond aux différentes observations du capteur. Ici f peut être une fonction très complexe. Mais en fait, dans certains problèmes, nous espérons que le résultat final satisfasse ou soit proche de certaines propriétés, il est donc difficile pour le formulaire Feed-Forward de donner une telle garantie. Il existe donc une autre façon d'écrire u* = argmin g(u, x) s.t. h(u, x)
Avec le développement des grands modèles, cette solution de conduite autonome de bout en bout à Feed-Forward direct a marqué le début d'une vague de renouveau. Bien sûr, les grands modèles sont très puissants, mais je soulève une question et j'espère que tout le monde y réfléchira : si le grand modèle est tout-puissant de bout en bout, cela signifie-t-il qu'il devrait être capable de jouer au Go/Gobang de bout en bout ? -jusqu'à la fin ? Des paradigmes comme AlphaGo ne devraient-ils pas avoir de sens ? Je crois que tout le monde sait que la réponse est non. Bien entendu, cette méthode Feed-Forward peut être utilisée comme solveur approximatif rapide et obtenir de bons résultats dans la plupart des scénarios.
À en juger par les différentes solutions qui ont révélé leur utilisation de Neural Planner, la partie neuronale ne fournit qu'un certain nombre de propositions d'initialisation pour des solutions d'optimisation ultérieures afin d'atténuer le problème de l'optimisation hautement non convexe dans les optimisations ultérieures. C'est essentiellement la même chose qu'un déploiement rapide dans AlphaGo. Mais AlphaGo ne qualifiera pas la recherche MCTS ultérieure de solution de « dissimulation ». . . Enfin, j'espère que cela pourra aider tout le monde à clarifier les différences et les liens entre ces concepts, et que chacun pourra clairement comprendre de quoi il parle lorsqu'il discute de problèmes. . .Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Introduction Dans l'ingénierie rapide, «Graph of Thought» fait référence à une nouvelle approche qui utilise la théorie des graphiques pour structurer et guider le processus de raisonnement de l'IA. Contrairement aux méthodes traditionnelles, qui impliquent souvent des s linéaires

Introduction Félicitations! Vous gérez une entreprise prospère. Grâce à vos pages Web, campagnes de médias sociaux, webinaires, conférences, ressources gratuites et autres sources, vous collectez 5000 identifiants de messagerie par jour. La prochaine étape évidente est

Introduction Dans l'environnement de développement logiciel au rythme rapide d'aujourd'hui, garantissant des performances optimales d'application est cruciale. La surveillance des mesures en temps réel telles que les temps de réponse, les taux d'erreur et l'utilisation des ressources peuvent aider

«Combien d'utilisateurs avez-vous?» il a poussé. "Je pense que la dernière fois que nous avons dit était de 500 millions d'actifs hebdomadaires, et cela croît très rapidement", a répondu Altman. "Vous m'avez dit que cela a doublé en quelques semaines", a poursuivi Anderson. «J'ai dit que le priv

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Imaginez avoir un assistant alimenté par AI qui non seulement répond à vos requêtes mais rassemble également de manière autonome des informations, exécute des tâches et gère même plusieurs types de données - texte, images et code. Cela semble futuriste? En ce

Introduction L’industrie financière est la pierre angulaire du développement de tout pays, car elle stimule la croissance économique en facilitant des transactions efficaces et une disponibilité du crédit. La facilité avec laquelle les transactions se produisent et le crédit

Introduction Les données sont générées à un rythme sans précédent à partir de sources telles que les médias sociaux, les transactions financières et les plateformes de commerce électronique. Gérer ce flux continu d'informations est un défi, mais il offre un


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Dreamweaver CS6
Outils de développement Web visuel

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.