Maison >Périphériques technologiques >IA >Dernière interview de LeCun : Pourquoi le monde physique finira-t-il par devenir le « talon d'Achille » du LLM ?
Dans le domaine de l'intelligence artificielle, rares sont les chercheurs comme Yann LeCun qui sont encore très actifs sur les réseaux sociaux à 65 ans.
Yann LeCun est connu comme un critique virulent dans le domaine de l'intelligence artificielle. Il a été un partisan actif de l'esprit open source et a conduit l'équipe de Meta à lancer le modèle populaire Llama 2, devenant ainsi un leader dans le domaine des grands modèles open source. Bien que de nombreuses personnes s'inquiètent de l'avenir de l'intelligence artificielle et s'inquiètent d'éventuels scénarios apocalyptiques, LeCun a un point de vue différent et croit fermement que le développement de l'intelligence artificielle aura un impact positif sur la société, en particulier l'arrivée de la super intelligence.
Récemment, LeCun est revenu une fois de plus sur le podcast de Lex Fridman et a eu une conversation de près de trois heures sur l'importance de l'open source, les limites du LLM et pourquoi les apocalypses de l'intelligence artificielle ont tort et sur des sujets tels que le chemin vers l'AGI. .
Page de visionnage : https://youtu.be/5t1vTLU7s40?feature=shared
Nous avons sélectionné quelques points précieux de ce podcast. Voici le contenu pertinent :
Lex Fridman : Vous avez dit que le LLM autorégressif n'est pas la manière dont nous progresserons vers une intelligence surhumaine. Pourquoi ne peuvent-ils pas nous emmener jusqu’au bout ?
Yann LeCun : Pour plusieurs raisons. Premièrement, un comportement intelligent présente de nombreuses caractéristiques. Par exemple, la capacité de comprendre le monde, la capacité de comprendre le monde physique, la capacité de se souvenir et de récupérer des choses, la mémoire persistante, les capacités de raisonnement et de planification. Ce sont quatre caractéristiques fondamentales des systèmes ou entités intelligents, humains, animaux. LLM ne peut pas faire cela, ou ne peut le faire que de manière très primitive, sans vraiment comprendre le monde physique. Le LLM n'a pas de véritable mémoire durable, ne peut pas vraiment raisonner et certainement pas planifier. Donc, si vous vous attendez à ce qu’un système soit intelligent mais qu’il ne soit pas capable de faire ces choses, vous faites une erreur. Cela ne veut pas dire que les LLM autorégressifs sont inutiles. Elles sont certes utiles, mais elles ne sont pas intéressantes et nous ne pouvons pas construire tout un écosystème d'applications autour d'elles. Mais en tant que passeport vers l’intelligence humaine, il leur manque les éléments de base nécessaires.
Nous voyons beaucoup plus d'informations par les entrées sensorielles que par le langage, et malgré notre intuition, la plupart de ce que nous apprenons et de ce que nous savons se fait grâce à nos observations et interactions avec le monde réel, et non à travers des mots. Tout ce que nous apprenons au cours des premières années de la vie, et certainement tout ce que les animaux apprennent, n’a rien à voir avec le langage.
Lex Fridman : C'est ce que vous avez dit, LLM manque de compréhension du monde physique ? Ainsi, la physique intuitive, le raisonnement de bon sens sur l’espace physique, sur la réalité physique, n’ont rien de spécial pour vous. Est-ce un grand pas que le LLM ne peut pas faire ?
Yann LeCun : Le LLM que nous utilisons aujourd'hui ne peut pas faire cela pour de nombreuses raisons, mais la raison principale est que la façon dont le LLM est formé est la suivante : vous obtenez un morceau de texte, supprimez quelques mots dans le texte, Masquez-les, remplacez-les par des jetons vierges et entraînez un réseau neuronal génétique pour prédire les mots manquants. Si vous construisez ce réseau neuronal d'une manière spéciale pour qu'il ne puisse regarder que le mot à gauche ou le mot qu'il essaie de prédire, alors vous obtenez un système qui essaie essentiellement de prédire le mot suivant dans le texte. Vous pouvez donc lui donner un texte, une invite et lui faire prédire le mot suivant. Il ne peut jamais prédire avec précision le mot suivant.
Donc, ce qu'il fait, c'est générer une distribution de probabilité sur tous les mots possibles dans le dictionnaire. En fait, il ne prédit pas les mots. Il prédit des morceaux de mots sous forme d'unités de sous-mots. Il est donc facile de gérer l'incertitude dans les prédictions, car seul un nombre limité de mots peuvent apparaître dans le dictionnaire et vous calculez simplement leur distribution. Le système sélectionne ensuite un mot dans cette distribution. Bien entendu, dans cette distribution, la probabilité de sélectionner un mot avec une probabilité plus élevée sera plus élevée. Donc, vous échantillonnez à partir de cette distribution, produisez réellement un mot, puis déplacez ce mot dans l'entrée afin que le système ne prédise pas le deuxième mot.
C'est ce qu'on appelle la prédiction autorégressive, c'est pourquoi ces LLM devraient être appelés « LLM autorégressifs », mais nous les appelons simplement LLM. Ce processus est différent du processus précédant la production d'un mot.
Quand vous et moi parlons, vous et moi sommes tous les deux bilingues et nous réfléchissons à ce que nous allons dire, relativement indépendamment de la langue que nous allons dire. Lorsque nous parlons d'un concept mathématique, la réflexion que nous faisons et la réponse que nous entendons donner n'ont rien à voir avec le fait que nous l'exprimions en français, en russe ou en anglais.
Lex Fridman : Chomsky a levé les yeux au ciel, mais je comprends, alors vous dites qu'il existe une abstraction plus large qui existe avant le langage et qui s'y rattache ?
Yann LeCun : Pour une grande partie de nos réflexions, oui.
Lex Fridman : Votre humour est-il abstrait ? Lorsque vous tweetez, et vos tweets sont parfois un peu épicés, avez-vous une représentation abstraite dans votre cerveau avant que le tweet ne soit mappé en anglais ?
Yann LeCun : a bien une représentation abstraite pour imaginer la réaction du lecteur face au texte. Mais penser à un concept mathématique, ou imaginer ce que l’on veut fabriquer en bois, ou quelque chose comme ça, n’a absolument rien à voir avec le langage. Vous n'avez pas de monologue intérieur dans une langue spécifique. Vous imaginez un modèle mental des choses. Je veux dire, si je vous demande d'imaginer à quoi ressemblerait cette bouteille d'eau si je la faisais pivoter de 90 degrés, cela n'a rien à voir avec le langage. Il est clair que la plupart de nos réflexions se déroulent à un niveau de représentation plus abstrait. Si le résultat est le langage, nous planifierons ce que nous allons dire, au lieu de produire des mouvements musculaires, nous planifierons la réponse avant de la donner.
LLM ne fait pas ça et dit simplement instinctivement mot après mot. C'est un peu comme un mouvement subconscient où quelqu'un vous pose une question et vous y répondez. Je n’avais pas le temps de réfléchir à la réponse, mais c’était simple. Vous n’avez donc pas besoin d’y prêter attention, il réagira automatiquement. C'est ce que fait LLM. Il ne réfléchit pas vraiment aux réponses. Parce qu'il a accumulé beaucoup de connaissances, il peut récupérer certaines choses, mais il crachera simplement jeton après jeton sans planifier la réponse.
Lex Fridman : Générer jeton par jeton est forcément simpliste, mais si le modèle du monde est suffisamment complexe, il est plus probable qu'il génère une série de jetons, ce qui sera une chose profonde.
Yann LeCun : Mais cela repose sur l'hypothèse que ces systèmes ont en réalité un modèle éternel du monde.
Lex Fridman : La vraie question est donc... Pouvez-vous construire un modèle qui a une compréhension profonde du monde ?
Yann LeCun : Pouvez-vous le construire à partir de prédictions, la réponse est probablement oui. Mais peut-il être construit en prédisant des mots ? La réponse est probablement non, car le langage est très médiocre avec une bande passante faible ou faible et ne contient pas suffisamment d'informations. Donc construire un modèle du monde signifie regarder le monde, comprendre pourquoi le monde évolue comme il le fait, et ensuite un élément supplémentaire du modèle du monde est d'être capable de prédire comment le monde évoluera en raison des actions que vous pourriez prendre.
Donc, un vrai modèle c'est : voici mon idée de l'état du monde à l'instant T, et voici les actions que je pourrais entreprendre. Quel est l’état prédit du monde à l’instant T+1 ? Or, l’état du monde n’a pas besoin de représenter tout ce qui concerne le monde, il doit simplement représenter suffisamment d’informations pertinentes pour planifier cette opération, mais pas nécessairement tous les détails.
Maintenant, voici le problème. Les modèles génératifs ne peuvent pas faire cela. Les modèles génératifs doivent donc être entraînés sur vidéo, et nous essayons de le faire depuis 10 ans, où vous prenez une vidéo, vous montrez une vidéo au système, et on vous demande de prédire le rappel de la vidéo, en gros. prédire ce qui va se passer.
Vous pouvez créer de grandes maquettes vidéo si vous le souhaitez. L'idée de faire cela existe depuis longtemps, chez FAIR, moi et certains de nos collègues essayons de le faire depuis 10 ans, mais on ne peut pas vraiment faire la même chose avec LLM parce que LLM, comme je Cela dit, vous ne pouvez pas prédire avec précision quel mot suivra une séquence de mots, mais vous pouvez prédire la distribution des mots. Maintenant, si vous regardez une vidéo, ce que vous devez faire est de prédire la distribution de toutes les images possibles dans la vidéo, et nous ne savons pas comment le faire correctement.
Nous ne savons pas comment représenter de manière utile les distributions sur des espaces continus de grande dimension. C’est le principal problème, et nous pouvons y parvenir parce que le monde est bien plus complexe et riche en informations que les mots. Le texte est discret, tandis que la vidéo est de grande dimension et continue. Il y a beaucoup de détails là-dedans. Donc, si je prends une vidéo de cette pièce et que la caméra effectue un panoramique dans la vidéo, je ne peux tout simplement pas prédire tout ce qui se passera dans la pièce pendant que je fais un panoramique. Le système ne peut pas non plus prédire ce qui apparaîtra dans la pièce lorsque la caméra effectuera un panoramique. Peut-être que cela prédit que c'est une pièce et qu'il y a de la lumière à l'intérieur et qu'il y a un mur et ce genre de chose. Il ne peut pas prédire à quoi ressemblera une peinture sur un mur ou à quoi ressemblera la texture d'un canapé. Bien entendu, il n’existe aucun moyen de prédire la texture d’un tapis. Je ne peux donc pas prédire tous ces détails.
Donc, une façon possible de résoudre ce problème, que nous avons étudié, est de construire un modèle avec des variables dites latentes. Les variables latentes sont introduites dans le réseau neuronal, qui est censé représenter toutes les informations sur le monde que vous n'avez pas encore perçues. Vous devez améliorer la puissance prédictive du système pour pouvoir bien prédire les pixels, y compris les subtilités. de tapis, canapés et peintures sur la texture du mur.
Nous avons essayé des réseaux de neurones directs, essayé des GAN, essayé des VAE, essayé divers auto-encodeurs régularisés. Nous essayons également d'utiliser ces méthodes pour apprendre de bonnes représentations d'images ou de vidéos, qui peuvent ensuite être utilisées comme entrée dans des systèmes de classification d'images, etc. En gros, tout a échoué.
Tous les systèmes qui tentent de prédire les parties manquantes d'une version corrompue d'une image ou d'une vidéo font essentiellement ceci : récupérer l'image ou la vidéo, la corrompre ou la convertir d'une manière ou d'une autre, puis essayer de la reconstruire à partir de la version corrompue. version Une vidéo ou une image complète, puis, espérons-le, une bonne représentation d'image pourra être développée à l'intérieur du système qui peut être utilisée pour la reconnaissance d'objets, la segmentation, etc. Cette approche est fondamentalement un échec complet, alors qu’elle fonctionne extrêmement bien lorsqu’il s’agit de texte. C’est le principe utilisé en LLM.
Lex Fridman : D'où vient l'échec ? Est-il difficile de bien présenter l’image, par exemple en intégrant toutes les informations importantes dans l’image ? Est-ce la cohérence entre image et image, image et image, qui forme la vidéo ? À quoi cela ressemblerait-il si nous faisions une compilation de toutes les façons dont vous échouez ?
Yann LeCun : Tout d'abord, je dois vous dire ce qui ne marche pas, car il y a d'autres choses qui marchent. Donc, ce qui ne fonctionne pas, c'est d'entraîner le système à apprendre des représentations d'images, à reconstruire de bonnes images à partir d'images corrompues.
Nous disposons de toute une suite de techniques pour cela, qui sont toutes des variantes d'auto-encodeurs de débruitage, et certains de mes collègues de FAIR ont développé quelque chose appelé MAE, ou auto-encodeurs masqués. C'est donc fondamentalement comme un LLM ou quelque chose comme ça, où vous entraînez le système en corrompant le texte, mais vous corrompez l'image, en supprimez les correctifs, puis entraînez un réseau neuronal géant pour le reconstruire. Les fonctionnalités que vous obtenez ne sont pas bonnes, et vous savez qu'elles ne le sont pas, car si vous entraînez maintenant la même architecture, mais que vous la supervisez avec des données étiquetées, des descriptions textuelles des images, etc., vous obtenez de bonnes représentations, les performances sur la tâche de reconnaissance est bien mieux que si vous faites ce genre de recyclage auto-supervisé.
La structure est bonne, et la structure de l'encodeur est également bonne, mais le fait que vous entraîniez le système à reconstruire des images ne lui permet pas de produire de longues et bonnes caractéristiques générales des images. Alors quelle est l'alternative ? Une autre approche est l’intégration conjointe.
Lex Fridman : : Quelle est la différence fondamentale entre Joint Embedding Architecture et LLM ? La JEPA peut-elle nous faire entrer dans l’AGI ?
Yann LeCun : Tout d'abord, en quoi diffère-t-elle des architectures génératives comme le LLM ? Un LLM ou un système de vision formé par reconstruction génère l'entrée. L'entrée brute qu'ils génèrent n'est ni corrompue ni transformée, vous devez donc prédire tous les pixels, et il faut beaucoup de ressources au système pour prédire réellement tous les pixels et tous les détails. Dans JEPA, vous n'avez pas besoin de prédire tous les pixels, il vous suffit de prédire une représentation abstraite de l'entrée. C'est beaucoup plus facile à bien des égards. Par conséquent, ce que le système JEPA doit faire lors de la formation est d’extraire autant d’informations que possible des entrées, mais uniquement d’extraire des informations relativement faciles à prédire. Il y a donc beaucoup de choses dans le monde que nous ne pouvons pas prédire. Par exemple, si vous conduisez une voiture autonome dans la rue ou sur la route, il peut y avoir des arbres autour de la route et la journée peut être venteuse. Ainsi, les feuilles de l'arbre se déplacent d'une manière semi-chaotique et aléatoire que vous ne pouvez pas prédire, et vous ne vous en souciez pas, et vous ne voulez pas prédire. Vous voulez donc que l’encodeur supprime essentiellement tous ces détails. Il vous dira que les feuilles bougent, mais il ne vous dira pas exactement ce qui se passe. Ainsi, lorsque vous faites une prédiction dans l'espace de représentation, vous n'avez pas besoin de prédire chaque pixel de chaque feuille. Non seulement c'est beaucoup plus simple, mais cela permet également au système d'apprendre essentiellement une représentation abstraite du monde, où ce qui peut être modélisé et prédit est conservé, et le reste est traité comme du bruit par l'encodeur et éliminé.
Par conséquent, cela augmente le niveau d'abstraction de la représentation. Si vous y réfléchissez, c'est définitivement quelque chose que nous faisons. Chaque fois que nous décrivons un phénomène, nous le faisons à un niveau d’abstraction spécifique. Nous n'utilisons pas toujours la théorie quantique des champs pour décrire chaque phénomène naturel. C'est impossible. Nous disposons donc de plusieurs niveaux d'abstraction pour décrire ce qui se passe dans le monde, de la théorie quantique des champs à la théorie atomique, en passant par les molécules, la chimie, les matériaux, jusqu'aux objets concrets du monde réel, etc. Nous ne pouvons donc pas tout simuler au niveau le plus bas. Et c’est exactement l’idée derrière JEPA, apprendre les représentations abstraites de manière auto-supervisée, mais aussi de manière hiérarchique. Je pense donc que c'est un élément important des systèmes intelligents. En termes de langage, nous n'avons pas besoin de faire cela, car le langage est déjà abstrait dans une certaine mesure et a éliminé beaucoup d'informations imprévisibles. Par conséquent, nous pouvons prédire directement les mots sans effectuer de plongements conjoints ni augmenter le niveau d’abstraction.
Lex Fridman : Vous voulez dire le langage, nous sommes trop paresseux pour utiliser le langage parce qu'on nous a donné des représentations abstraites gratuitement et maintenant nous devons faire un zoom arrière et vraiment réfléchir aux systèmes intelligents en général. Nous devons faire face à la réalité physique et à une réalité qui est en désordre. Et vous devez vraiment le faire, passer d'une réalité complète, riche et détaillée à une représentation abstraite de la réalité basée sur ce sur quoi vous pouvez raisonner, et tout ce genre de choses.
Yann LeCun : C'est vrai. Les algorithmes auto-supervisés qui apprennent par prédiction, même dans l'espace de représentation, apprennent plus de concepts si les données d'entrée sont plus redondantes. Plus les données sont redondantes, mieux elles capturent la structure interne des données. Par conséquent, dans les entrées sensorielles telles que les entrées perceptuelles et la vision, il y a beaucoup plus de structures redondantes que dans le texte. La langue peut en fait représenter plus d'informations car elle a été compressée. Vous avez raison, mais cela signifie aussi que c'est moins redondant, donc l'auto-supervision ne sera pas aussi bonne.
Lex Fridman : Est-il possible de combiner une formation auto-supervisée sur des données visuelles avec une formation auto-supervisée sur des données linguistiques ? Même si vous parlez de 10 à 13 jetons, cela nécessite une tonne de connaissances. Ces 10 à 13 jetons représentent tout ce que nous, les humains, avons découvert, y compris les conneries sur Reddit, le contenu de tous les livres et articles, et tout ce que l'intellect humain a jamais créé.
Yann LeCun : Ben finalement oui. Mais je pense que si nous le faisons trop tôt, nous risquons d’être amenés à tricher. En fait, c’est exactement ce que les gens font actuellement avec les modèles de langage visuel. Nous trichons essentiellement, en utilisant le langage comme une béquille pour aider nos systèmes visuels déficients à apprendre de bonnes représentations à partir d’images et de vidéos.
Le problème, c'est que nous pouvons améliorer les modèles de langage en leur nourrissant d'images, mais nous ne pouvons même pas atteindre le niveau d'intelligence ou de compréhension du monde qu'a un chat ou un chien parce qu'ils n'ont pas de langage. . Ils n'ont pas de langue mais comprennent le monde bien mieux que n'importe quel LLM. Ils peuvent planifier des actions très complexes et imaginer les conséquences d’une séquence d’actions. Comment faire en sorte que les machines apprennent cela avant de le combiner avec le langage ? Évidemment, si nous combinons cela avec le langage, nous obtiendrons des résultats, mais d’ici là, nous devons nous concentrer sur la manière d’amener le système à apprendre comment fonctionne le monde.
En fait, la technologie que nous utilisons est non contrastée. Par conséquent, non seulement l’architecture est non générative, mais les procédures d’apprentissage que nous utilisons sont également non comparatives. Nous avons deux ensembles de technologies. Un ensemble est basé sur la méthode de distillation. Il existe de nombreuses méthodes qui utilisent ce principe, dont une appelée BYOL, il existe plusieurs FAIR, une s'appelle vcREG et une s'appelle I-JEPA. Il faut dire que vcREG n’est pas une méthode de distillation, mais I-JEPA et BYOL le sont certainement. Il existe un autre type également appelé DINO ou DINO, également produit par FAIR. L'idée derrière ces méthodes est que vous exécutez l'entrée complète, disons une image, via un encodeur, produisant une représentation, puis vous détruisez ou transformez l'entrée, en la faisant passer par ce qui est essentiellement le même encodeur, mais avec quelques nuances, puis former un prédicteur.
Parfois, le prédicteur est très simple, parfois le prédicteur n'existe pas, mais un prédicteur est formé pour prédire la relation entre la première entrée non corrompue et l'entrée corrompue. Mais vous ne formez que la deuxième branche. Vous entraînez uniquement la partie du réseau qui prend des entrées corrompues. L'autre réseau ne nécessite pas de formation. Mais comme ils partagent les mêmes poids, lorsque vous modifiez le premier réseau, cela modifie également le deuxième réseau. Grâce à diverses astuces, vous pouvez empêcher le système de planter, comme le type de crash que j'ai expliqué plus tôt, où le système ignore fondamentalement l'entrée. Cette méthode est donc très efficace. Deux technologies que nous avons développées chez FAIR, DINO et I-JEPA, sont très efficaces à cet égard.
Notre dernière version s'appelle V-JEPA. C'est fondamentalement la même idée que l'I-JEPA, juste appliquée à la vidéo. Vous pouvez donc prendre la vidéo entière, puis en bloquer une partie. Ce que nous masquons est en fait un canal temporel, donc le clip entier pour chaque image de la vidéo entière.
C'est le premier système dont nous disposons qui peut apprendre de bonnes représentations de vidéo, donc lorsque vous introduisez ces représentations dans une tête de classificateur supervisé, il peut vous dire avec une assez grande précision quelle action se déroule dans la vidéo. C'est donc la première fois que nous obtenons quelque chose de cette qualité.
Les résultats semblent indiquer que notre système peut utiliser des représentations pour déterminer si une vidéo est physiquement possible, ou complètement impossible, parce qu'un objet disparaît, ou qu'un objet saute soudainement d'un endroit à un autre, ou change de forme ou quelque chose du genre.
Lex Fridman : Est-ce que cela nous permet de construire un modèle du monde qui le comprend suffisamment bien pour pouvoir conduire une voiture ?
Yann LeCun : Cela peut prendre un certain temps pour y arriver. Il existe déjà des systèmes robotiques basés sur cette idée. Ce dont vous avez besoin, c'est d'une version légèrement modifiée. Imaginez que vous avez une vidéo complète, et que vous faites avec cette vidéo, c'est la décaler dans le temps. Par conséquent, vous ne pouvez voir que le début de la vidéo mais pas la seconde moitié de la vidéo originale, ou seule la seconde moitié de la vidéo est bloquée. Vous pouvez ensuite entraîner un système JEPA ou un système comme celui que j'ai décrit pour prédire la représentation complète de la vidéo occultée. Cependant, vous devez également fournir une action au prédicteur. Par exemple, la roue tourne de 10 degrés vers la droite ou quelque chose comme ça, n'est-ce pas ?
Donc, s'il s'agit d'une caméra de voiture et que vous connaissez l'angle du volant, alors dans une certaine mesure, vous devriez être en mesure de prédire comment ce que vous voyez va changer. Évidemment, vous ne pouvez pas prédire tous les détails des objets qui apparaissent dans la vue, mais au niveau de la représentation abstraite, vous pourrez peut-être prédire ce qui va se passer. Donc, maintenant vous avez un modèle interne qui dit : « Voici mon idée de l'état du monde à l'instant T, et voici l'action que je prends. Voici T plus 1, T plus delta T, T plus 2. secondes Prédiction de l'état du monde", quel qu'il soit. Si vous disposez d’un tel modèle, vous pouvez l’utiliser pour la planification. Vous pouvez désormais faire ce qu'un LMS ne peut pas faire, c'est-à-dire planifier ce que vous voulez faire. Ainsi, lorsque vous atteignez un résultat spécifique ou atteignez un objectif spécifique.
Vous pouvez donc avoir de nombreux objectifs. Je peux prédire que si j’avais un objet comme celui-ci et que j’ouvrais la main, il tomberait. Si je le pousse contre la table avec une force spécifique, il bouge. Si je pousse la table avec la même force, elle ne bougera probablement pas. En conséquence, nous avons en tête un modèle interne du monde, qui nous permet de planifier une séquence d’actions pour atteindre un objectif spécifique. Maintenant, si vous disposez de ce modèle du monde, nous pouvons imaginer une séquence d'actions, prédire le résultat de cette séquence d'actions, mesurer dans quelle mesure l'état final satisfait un objectif particulier, comme déplacer la bouteille vers la gauche de la table. , puis exécutez Planifier une série d'actions pour minimiser cet objectif.
Nous ne parlons pas d’apprentissage, nous parlons de temps de raisonnement, donc c’est vraiment de la planification. En contrôle optimal, c'est une chose très classique. C'est ce qu'on appelle le contrôle prédictif de modèle. Vous disposez d'un modèle du système que vous souhaitez contrôler qui prédit une séquence d'états correspondant à une séquence d'instructions. Et vous planifiez une séquence d'instructions afin que, sur la base de votre modèle, l'état final du système atteigne les objectifs que vous vous êtes fixés. Les trajectoires des fusées sont ainsi planifiées depuis l’avènement des ordinateurs, au début des années 1960.
Lex Fridman : Suggestion d'abandonner les modèles génératifs au profit d'une architecture d'intégration commune ? Vous critiquez l’apprentissage par renforcement depuis un certain temps. Cela ressemble à un témoignage devant un tribunal, abandonnant les modèles probabilistes au profit des modèles énergétiques dont nous avons parlé, abandonnant les méthodes contrastives au profit des méthodes de régularisation.
Yann LeCun : Je ne pense pas qu'il faille l'abandonner complètement, mais je pense que son utilisation devrait être minimisée car elle est très inefficace en termes d'échantillonnage. Par conséquent, la bonne façon de former un système est de lui faire d’abord apprendre une bonne représentation du monde et un modèle du monde à partir d’observations primaires (et peut-être d’un peu d’interaction).
Lex Fridman : Pourquoi la RLHF est-elle si efficace ?
Yann LeCun : Ce qui a un effet transformateur, c'est le feedback humain, et il existe de nombreuses façons de l'utiliser, dont certaines sont simplement purement supervisées, et en fait, ce n'est pas vraiment un apprentissage par renforcement.
Yann LeCun : La seule façon d'avoir une industrie de l'IA, d'avoir des systèmes d'IA exempts de préjugés uniques, est d'avoir une plate-forme open source sur laquelle tout groupe peut s'appuyer systèmes spécialisés. L’évolution inévitable de l’histoire est que la grande majorité des systèmes d’IA seront construits sur des plateformes open source.
Meta s'articule autour d'un modèle commercial dans lequel vous fournissez un service financé soit par la publicité, soit par des clients commerciaux.
Par exemple, si vous avez un LLM qui peut aider une pizzeria en parlant aux clients via WhatsApp, le client n'a qu'à commander une pizza et le système lui demandera : « Quelles garnitures voulez-vous ou quelle taille voulez-vous ? tu veux?",etc". Les commerçants paieront pour cela, et c'est le modèle.
Sinon, s'il s'agit d'un système de service plus classique, il peut être soutenu par de la publicité, ou avoir plusieurs modes. Mais le fait est que si vous avez une base de clients potentiels suffisamment importante pour que vous ayez de toute façon besoin de construire le système pour eux, il n'y a aucun mal à le publier en open source.
Lex Fridman : Le pari de Meta est le suivant : ferons-nous mieux ?
Yann LeCun : Non. Nous avons déjà une énorme base d’utilisateurs et de clients.
Cela ne fait pas de mal que nous fournissions des systèmes open source ou des modèles de base, des modèles de base sur lesquels d'autres peuvent créer des applications. Si ces applications sont utiles à nos clients, nous pouvons les acheter directement auprès d'eux. Ils peuvent améliorer la plateforme. En fait, nous avons vu cela se produire. LLaMA 2 a été téléchargé des millions de fois et des milliers de personnes ont soumis des idées sur la manière d'améliorer la plateforme. Cela accélère donc évidemment le processus de mise à disposition du système à un large éventail d'utilisateurs, et des milliers d'entreprises créent des applications en utilisant le système. Par conséquent, la capacité de Meta à générer des revenus grâce à cette technologie n'est pas affectée par la distribution open source du modèle sous-jacent.
Lex Fridman : Qu'est-ce qui vous passionne le plus dans LLaMA 3 ?
Yann LeCun : Il y aura différentes versions de LLaMA qui sont des améliorations par rapport aux LLaMA précédentes, plus grandes, meilleures, multimodales, des choses comme ça. Et puis, dans les générations futures, il y aura des systèmes de planification capables de réellement comprendre comment le monde fonctionne, probablement formés par vidéo, de sorte qu'ils disposeront d'un modèle du monde qui pourrait être capable de faire le type de raisonnement et de planification que je parlé plus tôt.
Combien de temps cela prend-il ? Quand la recherche dans ce sens sera-t-elle intégrée à la gamme de produits ? Je ne sais pas et je ne peux pas vous le dire. Nous devons essentiellement réaliser quelques percées avant d’y parvenir, mais les gens sont en mesure de suivre nos progrès parce que nous publions nos recherches publiquement. La semaine dernière, nous avons donc publié notre effort V-JEPA, la première étape vers un système de formation vidéo.
La prochaine étape sera de former un modèle mondial basé sur cette créativité vidéo. DeepMind a un travail similaire et l'UC Berkeley a travaillé sur des modèles et des vidéos du monde. Beaucoup de gens travaillent là-dessus. Je pense que beaucoup de bonnes idées arrivent. Je parie que ces systèmes seront des systèmes légers JEPA, qu'ils ne seront pas des modèles génératifs, et nous verrons ce qui se passera dans le futur.
Il y a plus de 30 ans, lorsque nous travaillions sur les réseaux combinatoires et les premiers réseaux de neurones, j'ai vu une voie vers une intelligence au niveau humain, des systèmes capables de comprendre le monde, de se souvenir, de planifier, de raisonner. Il y a des idées qui pourraient avancer et qui pourraient avoir une chance de fonctionner, et j'en suis vraiment enthousiasmé.
Ce que j'aime, c'est que nous avançons d'une manière ou d'une autre dans la bonne direction et que nous réussissons peut-être avant que mon cerveau ne se transforme en sauce blanche ou avant que je doive prendre ma retraite.
Lex Fridman : L'essentiel de votre enthousiasme réside toujours dans l'aspect théorique, c'est-à-dire l'aspect logiciel ?
Yann LeCun : J'étais un spécialiste du matériel informatique il y a de nombreuses années. L’échelle est nécessaire mais pas suffisante. Il est possible que je vive dix ans dans le futur, mais je devrai quand même courir une courte distance. Bien entendu, plus nous progressons en termes d’efficacité énergétique, plus nous progressons en termes de travail acharné. Nous devons réduire la consommation d'énergie. Aujourd’hui, un GPU consomme entre un demi-kilowatt et un kilowatt. Le cerveau humain consomme environ 25 watts d’énergie, tandis que le GPU en consomme beaucoup moins que le cerveau humain. Il faudrait 100 000 ou 1 000 000 de puissance pour égaler cela, nous sommes donc assez éloignés les uns des autres.
Lex Fridman : Vous dites souvent que l’IG n’arrivera pas de sitôt, quelle est l’intuition sous-jacente derrière cela ?
Yann LeCun : L'idée, popularisée par la science-fiction et Hollywood, selon laquelle quelqu'un découvrira le secret de l'AGI ou de l'IA ou AMI au niveau humain (peu importe comment vous voulez l'appeler) et allumera la machine, Tant que nous aurons l’AGI, cela sera impossible.
Ce sera un processus étape par étape. Aurons-nous des systèmes capables de comprendre le fonctionnement du monde à partir de vidéos et d’apprendre de bonnes représentations ? Il faudra un certain temps avant d’atteindre l’échelle et les performances que nous observons chez les humains, pas seulement un jour ou deux.
Allons-nous permettre aux systèmes de disposer de grandes quantités de mémoire associative pour se souvenir des choses ? Oui, mais cela n’arrivera pas demain non plus. Nous devons développer quelques techniques de base. Nous disposons d’un grand nombre de ces technologies, mais les faire fonctionner avec un système complet est une autre histoire.
Aurons-nous des systèmes capables de raisonner et de planifier, peut-être comme l'architecture d'IA axée sur les objectifs que j'ai décrite plus tôt ? Oui, mais il faudra un certain temps pour que cela fonctionne correctement. Il faudra au moins une décennie ou plus avant que toutes ces choses fonctionnent ensemble, avant que nous obtenions des systèmes basés sur cela qui apprennent la planification hiérarchique, les représentations hiérarchiques, qui peuvent être configurées comme le fait un cerveau humain pour les différentes situations présentes. , Parce qu'il y a beaucoup de problèmes que nous ne voyons pas encore, que nous n'avons pas encore rencontrés, donc nous ne savons pas s'il existe des solutions simples dans ce cadre.
Depuis une douzaine d’années, j’entends des gens prétendre que l’AGI approche à grands pas, et ils ont tous tort.
Le QI peut mesurer quelque chose chez les humains, mais parce que les humains sont de forme relativement uniforme. Cependant, il mesure uniquement une capacité qui peut être pertinente pour certaines tâches mais pas pour d’autres. Mais si vous parlez d’autres entités intelligentes pour lesquelles les choses de base faciles à faire sont complètement différentes, alors cela n’a aucun sens. L’intelligence est donc un ensemble de compétences et la capacité d’acquérir efficacement de nouvelles compétences. L’ensemble des compétences qu’une entité intelligente particulière possède ou est capable d’acquérir rapidement est différent de l’ensemble des compétences d’une autre entité intelligente. Parce qu'il s'agit d'une chose multidimensionnelle, l'ensemble des compétences est un espace de grande dimension que vous ne pouvez pas mesurer et vous ne pouvez pas comparer deux choses pour voir si l'une est plus intelligente que l'autre. C’est multidimensionnel.
Lex Fridman : Vous dénoncez souvent les soi-disant apocalypses de l'IA, expliquez leurs points de vue et pourquoi vous pensez qu'ils ont tort.
Yann LeCun : Les apocalypses de l'IA imaginent divers scénarios catastrophe sur la manière dont une IA pourrait s'échapper ou prendre le contrôle et, en gros, nous tuer tous, ce qui repose sur un tas d'hypothèses, dont la plupart sont fausses.
La première hypothèse est que l'émergence de la superintelligence sera un événement et à un moment donné nous découvrirons le secret et nous ouvrirons une machine superintelligente parce que nous n'avons jamais fait cela auparavant, donc elle prendra le contrôle du monde et nous tuera tous. C'est faux. Ce ne sera pas un événement.
Nous aurons des systèmes aussi intelligents que des chats, ils ont toutes les caractéristiques de l'intelligence humaine, mais leur niveau d'intelligence peut être celui d'un chat ou d'un perroquet ou quelque chose du genre. Ensuite, nous améliorons progressivement leur intelligence. Tout en les rendant plus intelligents, nous devons également installer des garde-corps sur eux et apprendre à installer des garde-corps pour qu'ils se comportent plus normalement.
Dans la nature, il semble que les espèces les plus intelligentes finiront par dominer les autres espèces, parfois même intentionnellement et parfois juste par erreur pour différencier les autres espèces.
Donc vous pensez : « Eh bien, si un système d'IA est plus intelligent que nous, il est voué à nous anéantir, sinon intentionnellement, simplement parce qu'ils ne se soucient pas de nous », ce qui est ridicule – raison numéro La première est qu'ils ne deviendront pas une espèce en concurrence avec nous et n'auront pas le désir de dominer, car le désir de dominer doit être quelque chose d'inhérent aux systèmes intelligents. Il est profondément enraciné chez les humains et est partagé par les babouins, les chimpanzés et les loups, mais pas chez les orangs-outans. Ce désir de dominer, d’obéir ou d’obtenir un statut est propre aux espèces sociales. Les espèces non sociales comme les orangs-outans n’ont pas un tel désir et sont aussi intelligentes que nous.
Lex Fridman : Pensez-vous qu'il y aura bientôt des millions d'humanoïdes qui se promèneront ?
Yann LeCun : Pas bientôt, mais cela arrivera.
Je pense que les dix prochaines années vont être vraiment intéressantes pour l'industrie de la robotique, l'essor de l'industrie de la robotique attend depuis 10, 20 ans et ne s'est pas vraiment produit à part des comportements préprogrammés et ainsi de suite. La question principale reste le paradoxe de Moravec : comment amener ces systèmes à comprendre le fonctionnement du monde et à planifier des actions ? De cette façon, nous pouvons accomplir des tâches véritablement professionnelles. Ce que Boston Dynamics a fait, c'est essentiellement grâce à de nombreux modèles dynamiques fabriqués à la main et à une planification minutieuse à l'avance, ce qui est une robotique très classique avec beaucoup d'innovation et un peu de perception, mais ce n'était toujours pas suffisant et ils n'ont pas pu faire un robot domestique.
De plus, nous sommes encore loin d'une conduite L5 entièrement autonome, comme un système capable de s'entraîner comme un jeune de 17 ans pendant 20 heures de conduite.
Nous ne ferons donc pas de progrès significatifs en robotique tant que nous n’aurons pas un modèle du monde, des systèmes capables de s’entraîner eux-mêmes pour comprendre comment le monde fonctionne.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!