Maison >Périphériques technologiques >IA >Nouveau travail de l'équipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité d'apprendre avec peu d'échantillons

Nouveau travail de l'équipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité d'apprendre avec peu d'échantillons

王林original: 2024-07-16 20:38:021127parcourir

Vous pouvez utiliser votre cerveau, jamais vos mains.

Dans le futur, vous pourrez peut-être demander à un robot de vous aider dans les tâches ménagères rien qu'en y pensant. Le système NOIR récemment proposé par l'équipe de Wu Jiajun et Li Feifei de l'Université de Stanford permet aux utilisateurs de contrôler des robots pour accomplir des tâches quotidiennes grâce à des appareils d'électroencéphalographie non invasifs.

NOIR peut décoder vos signaux EEG dans une bibliothèque de compétences robotiques. Il peut désormais accomplir des tâches telles que cuisiner des sukiyaki, repasser des vêtements, râper du fromage, jouer au tic-tac-toe et même caresser un chien robot. Ce système modulaire possède de puissantes capacités d’apprentissage et peut gérer des tâches complexes et variées de la vie quotidienne.

Nouveau travail de léquipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité dapprendre avec peu déchantillons

L'interface cerveau-robot (BRI) est un chef-d'œuvre de l'art humain, de la science et de l'ingénierie. Nous l'avons vu dans d'innombrables œuvres de science-fiction et arts créatifs, tels que "The Matrix" et "Avatar", mais réaliser réellement la BRI n'est pas facile et nécessite des recherches scientifiques révolutionnaires pour créer un dispositif capable de se coordonner parfaitement avec le système robotique fonctionnel des humains. .

Un élément clé d'un tel système est la capacité des machines à communiquer avec les humains. Dans le processus de collaboration homme-machine et d’apprentissage des robots, les moyens par lesquels les humains communiquent leurs intentions incluent les actions, les pressions sur les boutons, le regard, les expressions faciales, le langage, etc. Communiquer directement avec des robots via des signaux neuronaux est la perspective la plus excitante mais aussi la plus stimulante.

Récemment, une équipe conjointe multidisciplinaire dirigée par Wu Jiajun et Li Feifei de l'Université de Stanford a proposé un système BRI intelligent universel NOIR (Neural Signal Operating Intelligent Robots/Neural Signal Operating Intelligent Robots).

Adresse papier : https://openreview.net/pdf?id=eyykI3UIHa

Site Web du projet : https://noir-corl.github.io/

Le système est basé sur l'électroencéphalographie non invasive ( technologie EEG). Selon les rapports, le principe principal basé sur ce système est l'autonomie hiérarchique partagée, c'est-à-dire que les humains définissent des objectifs de haut niveau et que les robots atteignent leurs objectifs en exécutant des instructions de mouvement de bas niveau. Le système intègre de nouvelles avancées en matière de neurosciences, de robotique et d’apprentissage automatique pour apporter des améliorations par rapport aux méthodes précédentes. L’équipe résume les contributions apportées.

Tout d’abord, NOIR est polyvalent, peut être utilisé pour diverses tâches et est facile à utiliser par différentes communautés. Les recherches montrent que NOIR peut effectuer jusqu'à 20 activités quotidiennes ; en comparaison, les systèmes BRI précédents étaient souvent conçus pour une ou quelques tâches, ou étaient simplement des systèmes de simulation. De plus, le système NOIR peut être utilisé par la population générale avec une formation minimale.

Deuxièmement, le I dans NOIR signifie que le système robotique est intelligent et possède des capacités d'adaptation. Le robot est doté d’un répertoire diversifié de compétences qui lui permettent d’effectuer des actions de bas niveau sans supervision humaine intensive. En utilisant des primitives de compétences paramétrées telles que Pick (obj-A) ou MoveTo (x,y), les robots peuvent naturellement acquérir, interpréter et exécuter des objectifs comportementaux humains.

De plus, le système NOIR a également la capacité d'apprendre ce que les humains veulent réaliser au cours du processus de collaboration. La recherche montre qu’en tirant parti des progrès récents des modèles sous-jacents, le système peut s’adapter même à des données très limitées. Cela peut améliorer considérablement l’efficacité du système. Les principales contributions techniques de

NOIR incluent un flux de travail modulaire pour décoder les signaux neuronaux afin de comprendre l’intention humaine. Vous savez, décoder les objectifs humains à partir de signaux neuronaux est extrêmement difficile. Pour ce faire, l'approche de l'équipe consiste à décomposer l'intention humaine en trois composantes majeures : l'objet à manipuler (Quoi), comment interagir avec l'objet (Comment) et où interagir (Où). Leurs recherches montrent que ces signaux peuvent être décodés à partir de différents types de données neuronales. Ces signaux décomposés peuvent naturellement correspondre à des compétences paramétrées du robot et peuvent être efficacement communiqués au robot.

Trois sujets humains ont utilisé avec succès le système NOIR dans 20 activités à domicile impliquant des opérations sur ordinateur ou mobile (y compris faire des sukiyaki, repasser des vêtements, jouer au tic-tac-toe, caresser un chien robot, etc.), c'est-à-dire accomplir ces tâches en leurs signaux cérébraux !

Les expériences montrent qu'en utilisant des humains comme enseignants pour un apprentissage robotique en quelques étapes, l'efficacité du système NOIR peut être considérablement améliorée. Cette méthode consistant à utiliser les signaux du cerveau humain pour collaborer à la construction de systèmes robotiques intelligents présente un grand potentiel pour développer des technologies d'assistance vitales pour les personnes, en particulier celles handicapées, afin d'améliorer leur qualité de vie.

Système NOIR

Les défis que cette recherche cherche à résoudre comprennent : 1. Comment construire un système BRI universel adapté à diverses tâches ? 2. Comment décoder les signaux de communication pertinents du cerveau humain ? 3. Comment améliorer l’intelligence et l’adaptabilité des robots pour parvenir à une collaboration plus efficace ? La figure 2 donne un aperçu du système.

Dans ce système, les humains, en tant qu'agents de planification, perçoivent, planifient et communiquent des objectifs comportementaux aux robots tandis que les robots utilisent des compétences primitives prédéfinies pour atteindre ces objectifs ;

Pour atteindre l’objectif global de créer un système BRI universel, ces deux conceptions doivent être intégrées de manière collaborative. À cette fin, l’équipe a proposé un nouveau flux de travail de décodage des signaux cérébraux et a équipé le robot d’un ensemble de bibliothèques de compétences originales paramétrées. Enfin, l’équipe a utilisé une technologie d’apprentissage par imitation sur quelques échantillons pour donner au robot des capacités d’apprentissage plus efficaces.

Cerveau : workflow de décodage modulaire

Comme le montre la figure 3, l'intention humaine sera décomposée en trois composantes : l'objet à manipuler (Quoi), la manière d'interagir avec l'objet (Comment) et l'interaction Où .

Décoder les intentions spécifiques des utilisateurs à partir des signaux EEG n'est pas facile, mais cela peut être accompli grâce aux potentiels évoqués visuels à l'état stable (SSVEP) et à l'imagerie motrice. En bref, le processus comprend :

Sélectionner un objet avec un potentiel évoqué visuel en état d'équilibre (SSVEP)
Sélectionner les compétences et les paramètres via l'imagerie motrice (MI)
Sélectionner via le resserrement musculaire pour confirmer ou interrompre

Robot : Compétences primitives paramétrées

Les compétences primitives paramétrées peuvent être combinées et réutilisées pour différentes tâches afin de réaliser des opérations complexes et diverses. De plus, ces compétences sont très intuitives pour les humains. Ni les humains ni les agents n'ont besoin de comprendre les mécanismes de contrôle de ces compétences, de sorte que les gens peuvent mettre en œuvre ces compétences par n'importe quelle méthode, à condition qu'elles soient robustes et adaptables à diverses tâches.

L'équipe a utilisé deux robots dans l'expérience : l'un était un bras robotique Franka Emika Panda pour les tâches d'exploitation de bureau, et l'autre était un robot PAL Tiago pour les tâches d'exploitation mobiles. Le tableau suivant donne les compétences primitives de ces deux robots.

Utiliser l'apprentissage robot pour un BRI efficace

Le flux de travail de décodage modulaire et la bibliothèque de compétences primitives décrits ci-dessus jettent les bases de NOIR. Cependant, l’efficacité de tels systèmes peut encore être améliorée. Le robot devrait être capable d'apprendre les éléments, les compétences et les préférences de sélection des paramètres de l'utilisateur au cours du processus de collaboration, afin de pouvoir à l'avenir prédire les objectifs que l'utilisateur souhaite atteindre, obtenir une meilleure automatisation et rendre le décodage plus simple et plus facile. Étant donné que la position, la pose, la disposition et l'instance des éléments peuvent être différentes à chaque exécution, des capacités d'apprentissage et de généralisation sont nécessaires. De plus, les algorithmes d’apprentissage doivent être très efficaces en matière d’échantillonnage, car la collecte de données humaines est coûteuse.

L'équipe a adopté deux méthodes pour cela : la sélection d'éléments et de compétences sur quelques échantillons basée sur la récupération, et l'apprentissage des paramètres de compétence sur un échantillon unique.

Sélection d'objets et de compétences basée sur la récupération de quelques échantillons. Cette méthode peut apprendre des représentations implicites des états observés. Étant donné un nouvel état observé, il trouve l’état le plus similaire et l’action correspondante dans l’espace caché. La figure 4 donne un aperçu de l’approche.

Pendant l'exécution de la mission, des points de données constitués d'images et de paires « objet-compétence » sélectionnées par l'homme sont enregistrés. Ces images sont d'abord codées par un modèle R3M pré-entraîné pour extraire des fonctionnalités utiles aux tâches de manipulation du robot, puis transmises à travers un certain nombre de couches entièrement connectées pouvant être entraînées. Ces couches sont formées à l'aide d'un apprentissage contrastif avec une perte de triplet, ce qui encourage les images portant la même étiquette « élément-compétence » à se rapprocher les unes des autres dans l'espace caché. Les intégrations d'images apprises et les étiquettes « élément-compétence » sont stockées en mémoire.

Pendant les tests, le modèle récupère le point de données le plus proche dans l'espace caché, puis suggère à l'humain la paire objet-compétence associée à ce point de données.

Apprentissage des paramètres de compétence à échantillon unique. La sélection des paramètres nécessite une implication humaine importante, car le processus nécessite un fonctionnement précis du curseur grâce à l'imagerie motrice (IM). Pour réduire l'effort humain, l'équipe a proposé un algorithme d'apprentissage qui prédit les paramètres en fonction d'une paire objet-compétence utilisée comme point de départ pour le contrôle du curseur. En supposant que l’utilisateur ait réussi à localiser le point clé précis de la prise d’une anse de tasse, devra-t-il à nouveau spécifier ce paramètre à l’avenir ? Récemment, les modèles de base tels que DINOv2 ont fait beaucoup de progrès et les points clés sémantiques correspondants peuvent être trouvés, éliminant ainsi le besoin de spécifier à nouveau les paramètres.

Par rapport aux travaux précédents, le nouvel algorithme proposé ici est à échantillon unique et prédit des points 2D spécifiques plutôt que des fragments sémantiques. Comme le montre la figure 4, étant donné une image d'entraînement (360 × 240) et une sélection de paramètres (x, y), le modèle prédit des points sémantiquement correspondants dans différentes images de test. Plus précisément, l’équipe a utilisé le modèle DINOv2 pré-entraîné pour obtenir des fonctionnalités sémantiques.

Expériences et résultats

missions. Les tâches sélectionnées pour l'expérimentation proviennent des référentiels COMPORTEMENT et Activités de la vie quotidienne, qui peuvent refléter dans une certaine mesure les besoins quotidiens humains. La figure 1 montre les tâches expérimentales, qui comprennent 16 tâches de bureau et 4 tâches d'exploitation mobile.

Des exemples de processus expérimentaux pour préparer des sandwichs et prendre soin des patients atteints du COVID-19 sont présentés ci-dessous.

Procédé expérimental. Pendant l’expérience, l’utilisateur est resté dans une pièce isolée, est resté immobile, a regardé le robot sur l’écran et s’est appuyé uniquement sur les signaux cérébraux pour communiquer avec le robot.

Performances du système. Le tableau 1 résume les performances du système selon deux mesures : le nombre de tentatives avant le succès et le temps nécessaire pour terminer la tâche en cas de succès.

Malgré la longue durée et la difficulté de ces tâches, NOIR a obtenu des résultats très encourageants : en moyenne, il n'a fallu que 1,83 tentatives pour terminer les tâches.

Précision du décodage. La précision avec laquelle les signaux cérébraux sont décodés est la clé du succès du système NOIR. Le tableau 2 résume la précision du décodage à différentes étapes. On peut voir que le CCA (analyse de corrélation canonique) basé sur SSVEP peut atteindre une précision élevée de 81,2 %, ce qui signifie que la sélection des éléments est généralement précise.

Résultats de la sélection des objets et des compétences. Alors, l’algorithme d’apprentissage robot récemment proposé peut-il améliorer l’efficacité de NOIR ? Les chercheurs ont d’abord évalué l’apprentissage par la sélection d’objets et de compétences. Pour ce faire, ils ont collecté un ensemble de données hors ligne pour la tâche MakePasta, avec 15 échantillons d'entraînement pour chaque paire élément-compétence. Étant donné une image, lorsque l’objet et la compétence corrects sont prédits simultanément, la prédiction est considérée comme correcte. Les résultats sont présentés dans le tableau 3.

Un modèle simple de classification d'images utilisant ResNet peut atteindre une précision moyenne de 0,31, tandis que la nouvelle méthode basée sur le réseau fédérateur ResNet pré-entraîné peut atteindre une précision significativement plus élevée de 0,73, ce qui met en évidence l'importance de l'apprentissage et de la récupération contrastés. d'apprendre.

Résultats de l'apprentissage des paramètres sur un seul échantillon. Les chercheurs ont comparé le nouvel algorithme à plusieurs références basées sur des ensembles de données pré-collectées. Le tableau 4 donne les valeurs MSE des résultats prédits.

Sie demonstrierten auch die Wirksamkeit des Parameter-Lernalgorithmus bei der tatsächlichen Aufgabenausführung für die SetTable-Aufgabe. Abbildung 5 zeigt den eingesparten menschlichen Aufwand bei der Steuerung der Cursorbewegung.

Nouveau travail de léquipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité dapprendre avec peu déchantillons

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

接口 signal github 算法 https 自动化

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Le premier plan de compétition de l'Olympiade mathématique de l'IA a été annoncé : les quatre équipes gagnantes ont toutes choisi le modèle national DeepSeekMathArticle suivant：Le premier plan de compétition de l'Olympiade mathématique de l'IA a été annoncé : les quatre équipes gagnantes ont toutes choisi le modèle national DeepSeekMath

Articles Liés

Voir plus