Maison > Article > Périphériques technologiques > Li Feifei interprète la direction entrepreneuriale de « l'intelligence spatiale » pour permettre à l'IA de véritablement comprendre le monde
Le choix « intelligence spatiale » de Li Feifei pour l'entrepreneuriat, la vidéo complète d'interprétation TED a été publiée.
Il y a quelque temps, Reuters a rapporté en exclusivité que la célèbre « marraine de l'IA » Li Feifei créait une startup et avait finalisé un tour de table de financement.
En présentant la startup, un informateur a cité une conférence TED donnée par Li Feifei à Vancouver, indiquant qu'il avait introduit le concept d'intelligence spatiale dans cette conférence TED.
Juste aujourd'hui, Li Feifei a publié la vidéo complète de son discours à TED Vancouver sur X. Elle a présenté Pour devenir perspicacité, la perspicacité se transforme en compréhension et la compréhension est guidée en action. /transcription
Pour expliquer davantage le concept d'« intelligence spatiale », il a montré l'image d'un chat avec la patte étendue pour pousser un verre vers le bord d'une table. En une fraction de seconde, dit-il, le cerveau humain peut évaluer « la géométrie de ce verre, sa position dans l'espace tridimensionnel, sa relation avec la table, le chat et toutes ces autres choses », puis prédire ce qui va se passer et prendre des mesures pour le faire.
"La nature a créé un cycle vertueux d'observation et d'action alimenté par l'intelligence spatiale", a-t-elle déclaré, ajoutant que son laboratoire de Stanford tente d'enseigner aux ordinateurs "comment agir dans un monde tridimensionnel". , utilisant de grands modèles de langage pour permettre à un bras robotique d'effectuer des tâches telles que ouvrir des portes et préparer des sandwichs sur la base d'instructions verbales.
Ce qui suit est la transcription du discours de Li Feifei lors du TED 2024 : Laissez-moi d'abord vous montrer que c'est le monde d'il y a 540 millions d'années, plein d'obscurité pure et sans fin. Cette obscurité n’est pas due à un manque de lumière, mais à un manque d’yeux pour voir. Bien que la lumière du soleil pénètre la surface de l'océan jusqu'à 1 000 mètres au-dessous et que la lumière des sources hydrothermales illumine les fonds marins remplis de vie, il n'y a pas un seul œil dans ces eaux anciennes, pas de rétine, pas de cornée. Il n'y a pas de lentille. . Par conséquent, toute lumière et tous les êtres vivants sont invisibles.Il fut un temps où le concept de « voir » lui-même n'existait pas. Jusqu'à l'émergence des trilobites, ils furent les premières créatures à ressentir la lumière, marquant le début d'un nouveau monde. Pour la première fois, ils réalisent qu’il existe un monde plus vaste qu’eux-mêmes.
Cette capacité visuelle a peut-être donné lieu à l'explosion cambrienne, permettant à un grand nombre d'espèces animales de commencer à laisser des traces dans les archives fossiles. De la détection passive de la lumière à l’utilisation active de la vision pour comprendre le monde, les systèmes nerveux biologiques ont commencé à évoluer, la vision s’est transformée en perspicacité, puis en action guidée, pour finalement produire de l’intelligence.
Aujourd'hui, nous ne nous contentons plus de l'intelligence visuelle donnée par la nature, mais sommes désireux de créer des machines capables de « voir » comme nous, voire plus intelligemment.
Il y a neuf ans, j'ai franchi cette étape pour présenter les premières avancées de la vision par ordinateur, un sous-domaine de l'intelligence artificielle. À cette époque, les algorithmes de réseaux neuronaux, les unités de traitement graphique (GPU) et le Big Data étaient combinés pour la première fois, ouvrant la voie à une nouvelle ère d’intelligence artificielle moderne. Un exemple est l'ensemble de données ImageNet, un ensemble de données de 15 millions d'images que mon laboratoire a passé plusieurs années à rassembler. Nos progrès ont été très rapides et la vitesse et la précision de l’algorithme se sont considérablement améliorées depuis l’annotation initiale de l’image jusqu’à aujourd’hui. Nous avons même développé des algorithmes capables d'identifier des objets dans des images et de prédire les relations entre eux. Ce travail est réalisé par mes étudiants et collaborateurs.Rappelez-vous que la dernière fois, je vous ai montré le premier algorithme de vision par ordinateur capable de décrire des photos dans le langage naturel humain. C'est un travail que j'ai réalisé avec mon élève Andrej Karpathy. À ce moment-là, j'ai tenté ma chance et j'ai dit : « Andrej, pouvons-nous construire un ordinateur inversé ? » Andrej a dit : « Haha, c'est impossible. » Comme vous pouvez le voir sur ce post, ce dernier est devenu possible. . Tout cela est dû à une famille de modèles de diffusion qui alimentent les algorithmes d'IA générative actuels, qui transforment des phrases suggérées par l'homme en de toutes nouvelles photos et vidéos.
Beaucoup d'entre vous ont été témoins de l'incroyable travail vidéo créé par Sora d'OpenAI. Cependant, même sans ressources GPU massives, mes étudiants et nos collaborateurs ont réussi à développer avec succès un modèle vidéo génératif appelé Walt quelques mois avant Sora.
Néanmoins, nous continuons à explorer et à nous améliorer. Nous avons remarqué qu'il y avait encore quelques imperfections dans la vidéo résultante, comme les détails des yeux du chat et la façon dont il se déplaçait dans les vagues sans se mouiller. Mais comme l’expérience passée nous l’a appris, nous apprendrons de ces erreurs, continuerons à nous améliorer et créerons l’avenir de nos rêves. Dans cet avenir, nous espérons que l’IA fera plus de choses pour nous, ou nous aidera à mieux les faire.
J'insiste depuis de nombreuses années sur le fait que prendre des photos et véritablement « voir » et comprendre sont deux choses différentes. Aujourd'hui, je voudrais ajouter quelque chose. Il ne suffit pas de voir. Le véritable « voir » est destiné à l'action et à l'apprentissage. En agissant dans les trois dimensions de l’espace et du temps, nous apprenons à mieux le faire grâce à l’observation. La nature crée un cycle vertueux grâce à « l’intelligence spatiale » qui relie la vision et l’action.
Pour illustrer le fonctionnement de l'intelligence spatiale, jetez un œil à cette photo. Si vous ressentez une envie soudaine de faire quelque chose, cela signifie que votre cerveau a instantanément analysé la géométrie du verre, sa position dans l’espace et sa relation avec les objets environnants. Cette envie d’agir est inhérente à toutes les créatures dotées d’une intelligence spatiale et lie étroitement la perception et l’action.
Si nous voulons que l'intelligence artificielle dépasse ses capacités actuelles, nous avons non seulement besoin d'elle pour voir et parler, mais aussi pour agir. Nous avons réalisé des progrès passionnants sur ce front. La dernière étape importante en matière d’intelligence spatiale consiste à apprendre aux ordinateurs à voir, à apprendre et à agir, et à apprendre continuellement à mieux voir et agir. Ce n’est pas facile car il a fallu des millions d’années à la nature pour développer la capacité de s’appuyer sur les yeux pour recevoir. éclairer et convertir des images bidimensionnelles. Intelligence spatiale convertie en informations tridimensionnelles.
Récemment, une équipe de chercheurs de Google a développé un algorithme pour transformer un ensemble de photos en un espace tridimensionnel, comme dans l'exemple que nous montrons ici. Mes étudiants et nos collaborateurs sont allés plus loin et ont créé un algorithme qui prend en entrée uniquement une image et la convertit en une forme tridimensionnelle. Voici quelques exemples supplémentaires.
Rappelons que nous avons parlé d'un programme informatique capable de convertir des descriptions verbales humaines en vidéos. Une équipe de chercheurs de l’Université du Michigan a trouvé un moyen de traduire une phrase en un agencement de pièce en trois dimensions. Mes collègues de Stanford, nos étudiants et moi-même avons développé un algorithme qui prend en compte une seule image et crée un nombre infini d'espaces possibles à explorer par les spectateurs.
Ce sont les progrès passionnants que nous avons réalisés dans le domaine de l'intelligence spatiale, et ils indiquent également les possibilités de notre monde futur. D’ici là, les humains seront capables de transformer le monde entier sous forme numérique, un monde numérique capable de simuler la richesse et les nuances du monde réel.
À mesure que les progrès de l’intelligence spatiale s’accélèrent, cette nouvelle ère de cercle vertueux se déroule sous nos yeux. Cette interaction va-et-vient catalyse l’apprentissage des robots, un élément clé de tout système d’intelligence incarnée qui doit comprendre et interagir avec le monde tridimensionnel.
Il y a dix ans, ImageNet, développé dans mon laboratoire, permettait une base de données de millions de photos de haute qualité pour l'entraînement à la vision par ordinateur. Aujourd'hui, nous collectons des « ImageNet » comportementaux de comportements et d'actions pour entraîner les ordinateurs et les robots à agir dans un monde tridimensionnel. Mais cette fois, nous ne collectons pas d’images statiques, mais construisons un environnement de simulation piloté par un modèle spatial tridimensionnel. Cela donne à l’ordinateur un nombre infini de possibilités pour apprendre à agir.
Nous faisons également des progrès passionnants dans le domaine de l'intelligence du langage robotique. En utilisant des données basées sur de grands modèles de langage, mes étudiants et collaborateurs sont devenus la première équipe à créer un bras robotique capable d'effectuer diverses tâches basées sur des commandes verbales, comme ouvrir un tiroir ou débrancher un téléphone de la ligne de chargement. préparez un sandwich avec du pain, de la laitue, de la tomate et mettez même une serviette pour vous. Normalement, j’aurais probablement plus de besoins pour un sandwich que pour un bras robotique, mais c’est un bon début.
Dans nos temps anciens, dans cet océan primitif, la capacité d'observer et de percevoir l'environnement environnant a déclenché l'explosion des espèces biologiques à l'époque cambrienne. Aujourd'hui, cette lumière touche à « la vie sous forme numérique ». L'intelligence spatiale permet aux machines d'interagir non seulement entre elles, mais aussi avec les humains ou avec le monde tridimensionnel sous forme réelle ou virtuelle. être important pour de nombreuses personnes. Avoir un impact profond sur la vie.
Prenons l'exemple des soins de santé. Au cours de la dernière décennie, mon laboratoire a pris les premières mesures pour explorer comment appliquer l'intelligence artificielle pour influencer l'efficacité du traitement des patients et comment relever le défi de la fatigue du personnel médical.
Nous testons des capteurs intelligents avec des collaborateurs de la Stanford School of Medicine et d'autres hôpitaux. Il peut détecter lorsqu'un clinicien entre dans la chambre d'un patient sans s'être correctement lavé les mains, suivre les instruments chirurgicaux ou alerter l'équipe soignante lorsqu'un patient présente un risque, comme une chute. Ces technologies sont une sorte d’intelligence ambiante, comme une paire d’yeux supplémentaire, qui peut réellement apporter des changements dans le monde. Je préférerais une assistance plus interactive pour nos patients, cliniciens et soignants qui ont désespérément besoin d’une paire de mains supplémentaire. Imaginez un robot autonome livrant des fournitures médicales pendant que les soignants se concentrent sur le patient, ou en réalité augmentée, guidant un chirurgien à travers des procédures plus sûres, plus rapides et moins invasives.
Ou imaginez un scénario dans lequel des patients gravement paralysés pourraient contrôler un robot avec leurs pensées. C’est vrai, utiliser les ondes cérébrales pour accomplir les tâches quotidiennes que vous et moi tenons pour acquises. Vous pouvez avoir un aperçu de cette possibilité future dans cette expérience récente de mon laboratoire. Dans cette vidéo, un bras robotique cuisinant un sukiyaki japonais est entièrement contrôlé par des signaux électriques du cerveau, qui sont collectés de manière non invasive via un capuchon EEG.
Il y a environ 500 millions d'années, l'émergence de la vision a bouleversé le monde des ténèbres et déclenché le processus évolutif le plus profond : le développement de l'intelligence dans le monde animal. Les progrès stupéfiants de l’intelligence artificielle au cours de la dernière décennie sont tout aussi étonnants. Mais je crois que le plein potentiel de cette explosion cambrienne numérique ne sera pleinement réalisé que lorsque nous disposerons d’ordinateurs et de robots alimentés par l’intelligence spatiale, tout comme la nature l’a fait autrefois avec les humains.
Ce sera une période passionnante car nos compagnons numériques apprendront à raisonner et à interagir avec le magnifique espace tridimensionnel qu'est le monde humain, tout en créant davantage de nouveaux mondes que nous pourrons explorer. Réaliser cet avenir ne sera pas facile. Cela nécessite une réflexion approfondie et un développement technologique constant en mettant l’humain au cœur. Mais si nous y parvenons, les ordinateurs et les robots alimentés par l’intelligence spatiale deviendront non seulement des outils utiles, mais aussi des partenaires dignes de confiance, stimulant la productivité humaine et favorisant une coexistence harmonieuse. Dans le même temps, notre dignité personnelle sera plus importante, conduisant à la prospérité commune de la société humaine.
Ce qui m'enthousiasme le plus à propos de l'avenir, c'est que l'IA deviendra plus précise, plus perspicace et plus consciente de l'espace. Ils marcheront aux côtés des humains et rechercheront constamment de meilleures façons de créer un monde meilleur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!