recherche
MaisonPériphériques technologiquesIAParlons de plusieurs grands modèles et concepts de conduite autonome devenus populaires récemment.

Diverses applications de grands modèles sont encore populaires récemment. Une série d'articles fantaisistes est apparue début octobre, essayant d'appliquer les grands modèles à la conduite autonome. J'ai récemment parlé de nombreux sujets connexes avec de nombreux amis. En écrivant cet article, d'une part, j'ai découvert que, y compris moi-même, dans le passé, nous avions en fait confondu des concepts très liés mais en réalité différents. D’un autre côté, il s’agit d’une extension de ces concepts. Il y a quelques réflexions intéressantes qui méritent d’être partagées et discutées avec tout le monde.

Grand modèle (langue)

C'est sans aucun doute la direction la plus populaire à l'heure actuelle, et elle fait également l'objet des journaux les plus concentrés. Comment les grands modèles linguistiques peuvent-ils contribuer à la conduite autonome ? D'une part, comme GPT-4V, il offre des capacités de compréhension sémantique extrêmement puissantes grâce à l'alignement avec des images, qui ne seront pas évoquées ici pour l'instant, d'autre part, il utilise LLM comme agent pour implémenter directement le comportement de conduite ; Cette dernière est en fait la direction de recherche la plus sexy à l’heure actuelle et est inextricablement liée à la série de travaux sur l’IA embarquée.

La plupart des derniers types de travaux vus jusqu'à présent utilisent le LLM : 1) directement utilisé 2) affiné grâce à l'apprentissage supervisé 3) affiné grâce à l'apprentissage par renforcement pour les tâches de conduite. En substance, il n’y a pas d’échappatoire au cadre paradigmatique précédent de la conduite basée sur des méthodes d’apprentissage. En fait, une question très directe est la suivante : pourquoi serait-il préférable d’utiliser le LLM pour ce faire ? Intuitivement parlant, utiliser des mots pour conduire est une chose inefficace et verbeuse. Puis un jour, j'ai soudain compris LLM implémente en fait un pré-entraînement pour l'agent via le langage ! L'une des raisons importantes pour lesquelles il était difficile pour RL de généraliser était qu'il était difficile d'unifier diverses tâches et d'utiliser diverses données communes pour le pré-entraînement. Chaque tâche ne pouvait être entraînée qu'à partir de zéro, mais LLM l'a très bien résolu. question. Mais en fait, il y a plusieurs problèmes qui ne sont pas bien résolus : 1) Après avoir terminé le pré-entraînement, le langage doit-il être conservé comme interface de sortie ? Cela apporte en fait beaucoup de désagréments à de nombreuses tâches et entraîne également dans une certaine mesure des calculs redondants. 2) L'approche du LLM en tant qu'agent ne résout toujours pas les problèmes essentiels de la méthode sans modèle RL existante, et tous les problèmes des méthodes sans modèle existent toujours. Récemment, nous avons également vu quelques tentatives basées sur un modèle + LLM en tant qu'agent, ce qui peut être une direction intéressante.

La dernière chose dont je veux me plaindre dans chaque article est la suivante : Il ne s'agit pas simplement de se connecter à LLM et de laisser LLM produire une raison pour rendre votre modèle interprétable. Cette raison peut encore être absurde. . . Des choses qui n'étaient pas garanties auparavant ne le deviendront pas simplement parce qu'une phrase est émise.

Grand modèle (visuel)

Le modèle visuel purement grand n'a en fait toujours pas vu ce moment magique «d'émergence». Lorsqu'on parle de grands modèles visuels, il existe généralement deux références possibles : l'une est un extracteur de fonctionnalités d'informations visuelles super puissant basé sur un pré-entraînement de données Web massives tel que CLIP ou DINO ou SAM, qui améliore considérablement la capacité de compréhension sémantique du modèle. L'autre fait référence au modèle conjoint de couples (image, action, etc...) mis en œuvre par le modèle mondial représenté par GAIA.

En fait, je pense que le premier n’est que le résultat d’une expansion linéaire continue selon les lignes traditionnelles. À l’heure actuelle, il est difficile d’entrevoir la possibilité de changements quantitatifs dans la conduite autonome. En fait, ce dernier est entré continuellement dans le champ de vision des chercheurs grâce à la publicité continue de Wayve et Tesla cette année. Lorsque les gens parlent de modèles mondiaux, ils incluent souvent le fait que le modèle est de bout en bout (produit directement des actions) et est lié au LLM. En fait, cette hypothèse est unilatérale. Ma compréhension du modèle mondial est également très limitée. Je voudrais recommander l'interview de Lecun et l'enquête RL basée sur un modèle de @Yu Yang, dans laquelle je n'entrerai pas plus en détail :

Yu Yang : En savoir plus sur le modèle environnemental (modèle mondial)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

Conduite autonome visuelle pure

C'est en fait facile à comprendre et fait référence à un système de conduite autonome qui repose uniquement sur des capteurs visuels. C’est en fait le meilleur et ultime souhait de la conduite autonome : conduire avec une paire d’yeux comme un être humain. De tels concepts sont généralement associés aux deux grands modèles ci-dessus, car la sémantique complexe des images nécessite de fortes capacités d'abstraction pour extraire des informations utiles. Dans le cadre de la récente offensive publicitaire continue de Tesla, ce concept recoupe également le concept de bout en bout mentionné ci-dessous. Mais en fait, il existe de nombreuses façons d'obtenir une conduite purement visuelle, et de bout en bout en fait naturellement partie, mais ce n'est pas la seule. Le problème le plus difficile dans la réalisation d’une conduite autonome purement visuelle est que la vision est intrinsèquement insensible aux informations 3D, et les grands modèles n’ont pas fondamentalement changé cela. Cela se reflète spécifiquement dans : 1) La manière de recevoir passivement les ondes électromagnétiques rend la vision contrairement aux autres capteurs capables de mesurer des informations géométriques dans l'espace 3D. 2) La perspective rend les objets distants extrêmement sensibles aux erreurs ; Ceci est très peu convivial pour la planification et le contrôle en aval, qui sont implémentés par défaut dans un espace 3D à erreur égale. Cependant, conduire par la vision équivaut-il à être capable d’estimer avec précision la distance et la vitesse en 3D ? Je pense qu'il s'agit d'une question de représentation qui mérite une étude approfondie dans le cadre de la conduite autonome purement visuelle en plus de la compréhension sémantique.

Conduite autonome de bout en bout

Ce concept fait référence au signal de contrôle du capteur jusqu'à la sortie finale (en fait, je pense qu'il peut également inclure largement les informations de points de cheminement vers la planification des couches plus en amont) en utilisant une optimisation conjointe modèle. Il peut s'agir soit d'une méthode directe de bout en bout qui saisit les données de capteurs comme ALVINN dès les années 1980 et émet des signaux de contrôle directement via un réseau neuronal, soit d'une méthode de bout en bout par étapes comme le meilleur CVPR de cette année. papier UniAD. Cependant, un point commun de ces méthodes est que le signal de supervision aval peut être directement transmis à l'amont, au lieu que chaque module ait ses propres objectifs d'optimisation auto-définis. Dans l’ensemble, c’est une bonne idée. Après tout, le deep learning repose sur une telle optimisation conjointe pour faire fortune. Cependant, pour les systèmes tels que la conduite autonome ou les robots à usage général, qui sont souvent extrêmement complexes et traitent du monde physique, de nombreux problèmes doivent être surmontés en termes de mise en œuvre technique, d'organisation des données et d'efficacité d'utilisation.

Conduite autonome de bout en bout Feed-Forward

Ce concept semble être rarement évoqué, mais en fait je trouve que l'existence de bout en bout en elle-même est précieuse, mais le problème réside dans l'observation de l'utilisation de cette méthode Feed-Forward. Moi y compris, en fait, j'ai toujours pensé par défaut que la conduite de bout en bout doit être sous la forme de Feed-Forward, car 99 % des méthodes actuelles basées sur l'apprentissage profond supposent une telle structure, ce qui signifie que le résultat final préoccupant (tels que les signaux de commande)u = f(x), x correspond aux différentes observations du capteur. Ici f peut être une fonction très complexe. Mais en fait, dans certains problèmes, nous espérons que le résultat final satisfasse ou soit proche de certaines propriétés, il est donc difficile pour le formulaire Feed-Forward de donner une telle garantie. Il existe donc une autre façon d'écrire u* = argmin g(u, x) s.t. h(u, x)

Avec le développement des grands modèles, cette solution de conduite autonome de bout en bout à Feed-Forward direct a marqué le début d'une vague de renouveau. Bien sûr, les grands modèles sont très puissants, mais je soulève une question et j'espère que tout le monde y réfléchira : si le grand modèle est tout-puissant de bout en bout, cela signifie-t-il qu'il devrait être capable de jouer au Go/Gobang de bout en bout ? -jusqu'à la fin ? Des paradigmes comme AlphaGo ne devraient-ils pas avoir de sens ? Je crois que tout le monde sait que la réponse est non. Bien entendu, cette méthode Feed-Forward peut être utilisée comme solveur approximatif rapide et obtenir de bons résultats dans la plupart des scénarios.

À en juger par les différentes solutions qui ont révélé leur utilisation de Neural Planner, la partie neuronale ne fournit qu'un certain nombre de propositions d'initialisation pour des solutions d'optimisation ultérieures afin d'atténuer le problème de l'optimisation hautement non convexe dans les optimisations ultérieures. C'est essentiellement la même chose qu'un déploiement rapide dans AlphaGo. Mais AlphaGo ne qualifiera pas la recherche MCTS ultérieure de solution de « dissimulation ». . .

Enfin, j'espère que cela pourra aider tout le monde à clarifier les différences et les liens entre ces concepts, et que chacun pourra clairement comprendre de quoi il parle lorsqu'il discute de problèmes. . .

Parlons de plusieurs grands modèles et concepts de conduite autonome devenus populaires récemment.

Lien original : https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Vous devez construire un lieu de travail dans un voile d'ignoranceVous devez construire un lieu de travail dans un voile d'ignoranceApr 29, 2025 am 11:15 AM

Dans le livre de 1971 de John Rawls, The Theory of Justice, il a proposé une expérience de pensée que nous devrions prendre en tant que noyau de la conception de l'IA d'aujourd'hui et utilise la prise de décision: le voile de l'ignorance. Cette philosophie fournit un outil simple pour comprendre l'équité et fournit également un plan pour les dirigeants afin d'utiliser cette compréhension pour concevoir et mettre en œuvre l'IA de manière équitable. Imaginez que vous établissez des règles pour une nouvelle société. Mais il y a une prémisse: vous ne savez pas à l'avance quel rôle vous allez jouer dans cette société. Vous pouvez finir par être riche ou pauvre, sain ou handicapé, appartenant à une minorité majoritaire ou marginale. Opérant dans le cadre de ce «voile d'ignorance» empêche les décideurs de prendre des décisions qui bénéficient elles-mêmes. Au contraire, les gens seront plus motivés pour formuler le public

Décisions, décisions… les prochaines étapes pour une IA appliquée pratiqueDécisions, décisions… les prochaines étapes pour une IA appliquée pratiqueApr 29, 2025 am 11:14 AM

De nombreuses entreprises se spécialisent dans l'automatisation des processus robotiques (RPA), offrant des robots pour automatiser les tâches répétitives - UIPATH, l'automatisation n'importe où, le prisme bleu et autres. Pendant ce temps, l'exploitation de processus, l'orchestration et le traitement des documents intelligents spécialis

Les agents arrivent - plus sur ce que nous ferons à côté des partenaires de l'IALes agents arrivent - plus sur ce que nous ferons à côté des partenaires de l'IAApr 29, 2025 am 11:13 AM

L'avenir de l'IA va au-delà de la simple prédiction des mots et de la simulation conversationnelle; Les agents de l'IA émergent, capables d'action indépendante et d'achèvement des tâches. Ce changement est déjà évident dans des outils comme le claude d'Anthropic. Agents de l'IA: recherche un

Pourquoi l'empathie est plus importante que le contrôle des dirigeants dans un avenir dirigé par l'IAPourquoi l'empathie est plus importante que le contrôle des dirigeants dans un avenir dirigé par l'IAApr 29, 2025 am 11:12 AM

Les progrès technologiques rapides nécessitent une perspective prospective sur l'avenir du travail. Que se passe-t-il lorsque l'IA transcende une simple amélioration de la productivité et commence à façonner nos structures sociétales? Le prochain livre de Topher McDougal, Gaia Wakes:

IA pour la classification des produits: les machines peuvent-elles maîtriser la loi fiscale?IA pour la classification des produits: les machines peuvent-elles maîtriser la loi fiscale?Apr 29, 2025 am 11:11 AM

La classification des produits, impliquant souvent des codes complexes comme "HS 8471.30" à partir de systèmes tels que le système harmonisé (HS), est crucial pour le commerce international et les ventes intérieures. Ces codes garantissent une application fiscale correcte, impactant chaque inv

La demande du centre de données pourrait-elle susciter un rebond de technologie climatique?La demande du centre de données pourrait-elle susciter un rebond de technologie climatique?Apr 29, 2025 am 11:10 AM

L'avenir de la consommation d'énergie dans les centres de données et l'investissement en technologie climatique Cet article explore la forte augmentation de la consommation d'énergie dans les centres de données motivés par l'IA et son impact sur le changement climatique, et analyse des solutions innovantes et des recommandations politiques pour relever ce défi. Défis de la demande d'énergie: les centres de données à grande échelle importants et ultra-larges consomment une puissance énorme, comparable à la somme de centaines de milliers de familles nord-américaines ordinaires, et des centres émergents d'IA à l'échelle ultra-large consomment des dizaines de fois plus de puissance que cela. Au cours des huit premiers mois de 2024, Microsoft, Meta, Google et Amazon ont investi environ 125 milliards de dollars en construction et en fonctionnement des centres de données d'IA (JP Morgan, 2024) (tableau 1). La demande d'énergie croissante est à la fois un défi et une opportunité. Selon Canary Media, l'électricité imminente

L'âge d'or de l'IA et de l'IA et d'HollywoodL'âge d'or de l'IA et de l'IA et d'HollywoodApr 29, 2025 am 11:09 AM

L'IA générative révolutionne la production cinématographique et télévisée. Le modèle Ray 2 de Luma, ainsi que la Gen-4 de Runway, Sora d'Openai, Veo et d'autres modèles de Google, améliorent la qualité des vidéos générées à une vitesse sans précédent. Ces modèles peuvent facilement créer des effets spéciaux complexes et des scènes réalistes, même de courts clips vidéo et des effets de mouvement perçus par la caméra ont été réalisés. Bien que la manipulation et la cohérence de ces outils doivent encore être améliorées, la vitesse de progrès est incroyable. La vidéo générative devient un support indépendant. Certains modèles sont bons dans la production d'animation, tandis que d'autres sont bons dans les images en direct. Il convient de noter que Adobe's Firefly et Moonvalley's MA

Chatgpt devient-il lentement le plus grand homme de l'IA?Chatgpt devient-il lentement le plus grand homme de l'IA?Apr 29, 2025 am 11:08 AM

L'expérience utilisateur de ChatGPT diminue: est-ce une dégradation du modèle ou des attentes de l'utilisateur? Récemment, un grand nombre d'utilisateurs payés par Chatgpt se sont plaints de leur dégradation des performances, ce qui a attiré une attention généralisée. Les utilisateurs ont signalé des réponses plus lentes aux modèles, des réponses plus courtes, un manque d'aide et encore plus d'hallucinations. Certains utilisateurs ont exprimé leur insatisfaction aux réseaux sociaux, soulignant que Chatgpt est devenu «trop flatteur» et a tendance à vérifier les vues des utilisateurs plutôt que de fournir des commentaires critiques. Cela affecte non seulement l'expérience utilisateur, mais apporte également des pertes réelles aux clients des entreprises, tels que la réduction de la productivité et le gaspillage des ressources informatiques. Preuve de dégradation des performances De nombreux utilisateurs ont signalé une dégradation significative des performances de Chatgpt, en particulier dans des modèles plus anciens tels que le GPT-4 (qui sera bientôt interrompu du service à la fin de ce mois). ce

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code