Maison >Périphériques technologiques >IA >562 milliards de paramètres ! Google lance PaLM-E, le plus grand modèle d'IA « généraliste » de l'histoire, permettant aux robots d'effectuer diverses tâches de manière autonome
Actualité du 8 mars : lundi, un groupe de chercheurs en intelligence artificielle de Google et de l'Université technique de Berlin a lancé le plus grand modèle de langage visuel de l'histoire - PaLM-E, avec un volume de paramètres allant jusqu'à 562 milliards (GPT-3 a un volume de paramètre de 1750 100 millions).
PaLM-E est le plus grand VLM (Visual Language Model) connu à ce jour. En tant que VLM incarné multimodal, il peut non seulement comprendre des images, mais également comprendre, générer un langage et exécuter diverses instructions robotiques complexes sans recyclage. Il présente également de fortes capacités d’émergence (modèles au comportement imprévisible).
Selon Google, lorsqu'il reçoit une commande de haut niveau telle que « Apportez-moi les flocons de riz dans le tiroir », PaLM-E peut générer un plan d'action pour une plate-forme robotique mobile dotée d'un bras (développée par Google Robots) et exécuter ces actions vous-même.
PaLM-E y parvient en analysant les données de la caméra du robot sans prétraiter la scène. Cela élimine le besoin pour les humains de prétraiter ou d'annoter les données, ce qui rend le contrôle du robot plus autonome.
PaLM-E est également flexible et capable de réagir à l'environnement. Par exemple, le modèle PaLM-E peut guider un robot pour aller chercher un sac de chips dans la cuisine. Parce que PaLM-E est intégré à la boucle de contrôle, il résiste aux interruptions pouvant survenir pendant la tâche. Dans un exemple vidéo, un chercheur a saisi les chips des mains du robot et les a déplacées, mais le robot a trouvé les chips et les a saisies à nouveau.
De plus, le modèle PaLM-E peut également contrôler le robot pour effectuer de manière autonome des tâches complexes qui nécessitent à l'origine le guidage humain. En plus de la robotique, les chercheurs de Google ont également observé plusieurs effets intéressants liés à l'utilisation de grands modèles de langage comme noyau de PaLM-E. L'un d'eux est que PaLM-E peut présenter un « transfert vers l'avant », ce qui signifie qu'il peut apprendre d'une tâche. Les connaissances et compétences acquises peuvent être transférées à une autre tâche, plus performante qu’un modèle de robot à tâche unique.
Les chercheurs de Google prévoient d'explorer davantage d'applications concrètes de PaLM-E à l'avenir, telles que la domotique ou les robots industriels, et espèrent que PaLM-E pourra inspirer davantage d'applications d'IA multimodale.
IT House a rapporté que Microsoft, un rival de Google AI, a récemment publié un article sur "ChatGPT for Robotics", qui utilise une méthode similaire pour combiner des données visuelles et de grands modèles de langage pour contrôler les robots.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!