Maison  >  Article  >  Périphériques technologiques  >  Laissez le robot ressentir votre « Voici », l'équipe Tsinghua utilise des millions de scénarios pour créer un transfert universel entre l'homme et la machine.

Laissez le robot ressentir votre « Voici », l'équipe Tsinghua utilise des millions de scénarios pour créer un transfert universel entre l'homme et la machine.

WBOY
WBOYavant
2024-01-12 08:57:131340parcourir

Des chercheurs de l'Institut d'information interdisciplinaire de l'Université Tsinghua ont proposé un cadre appelé « GenH2R », qui vise à permettre aux robots d'apprendre une stratégie universelle de transfert homme-machine basée sur la vision. Cette stratégie permet au robot d'attraper de manière plus fiable divers objets aux formes diverses et aux trajectoires de mouvement complexes, ouvrant ainsi de nouvelles possibilités d'interaction homme-machine. Cette recherche constitue une avancée importante pour le développement du domaine de l’intelligence artificielle et apporte une plus grande flexibilité et adaptabilité à l’application des robots dans des scénarios réels.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Avec l'avènement de l'ère de l'intelligence incarnée (Emboded AI), nous attendons des corps intelligents qu'ils interagissent activement avec l'environnement. Dans cette démarche, il est devenu crucial d’intégrer les robots dans le milieu de vie humain et d’interagir avec les humains (Human Robot Interaction). Nous devons réfléchir à la manière de comprendre le comportement et les intentions humaines, de répondre à leurs besoins de la manière la plus adaptée aux attentes humaines et de placer les humains au centre de l’intelligence incarnée (Human-Centered Embodied AI). L'une des compétences clés est le transfert généralisable d'homme à robot, qui permet aux robots de mieux coopérer avec les humains pour accomplir diverses tâches quotidiennes courantes, telles que la cuisine, l'organisation de la maison et l'assemblage de meubles.

Le développement explosif des grands modèles indique que des données massives de haute qualité + un apprentissage à grande échelle sont un moyen possible d'évoluer vers l'intelligence générale. Ainsi, les compétences générales en matière de transfert homme-machine peuvent-elles être obtenues grâce à des données robotiques massives et à des données à grande échelle. imitation de stratégie à grande échelle ? Cependant, il est dangereux et coûteux de permettre un apprentissage interactif à grande échelle entre robots et humains dans le monde réel, et la machine est susceptible de nuire aux humains :

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

S'entraîner dans un environnement de simulation et utiliser des simulations humaines et dynamiques saisir la planification des mouvements pour fournir automatiquement une grande quantité de données d'apprentissage de robots diverses, puis appliquer ces données à de vrais robots. Cette méthode basée sur l'apprentissage est appelée « Sim-to-Real Transfer », qui peut améliorer considérablement la relation entre les robots et le réel. robots. Capacités d’interaction collaborative entre humains avec une plus grande fiabilité.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Par conséquent, le cadre « GenH2R » a été proposé, à partir de trois perspectives : simulation, démonstration et imitation, permettant aux robots d'apprendre pour la première fois de bout en bout pour un transfert universel. n'importe quelle méthode de saisie, n'importe quelle trajectoire de transfert et n'importe quelle géométrie d'objet : 1) Fournit des millions de niveaux de divers scénarios de transfert de simulation complexes faciles à générer dans l'environnement "GenH2R-Sim", 2) Présente un ensemble de génération automatisée de démonstrations d'experts processus basé sur la collaboration vision-action, 3) utilisant la méthode Imitation Learning basée sur l'information 4D et l'aide à la prédiction (nuage de points + temps).

Par rapport à la méthode SOTA (CVPR2023 Highlight), le taux de réussite moyen de la méthode GenH2R sur divers ensembles de tests est augmenté de 14 %, le temps est raccourci de 13 % et elle fonctionne de manière plus robuste dans les expériences réelles sur machine.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接


  • Adresse papier : https://arxiv.org/abs/2401.00929
  • Page d'accueil papier : https://GenH2R.github.io
  • Vidéo papier :https: //youtu.be/BbphK5QlS1Y

Introduction à la méthode

Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, découvrons les méthodes spécifiques de résolution d'énigmes de "Simulation Environment (GenH2R-Sim )".

Pour générer des ensembles de données main-objet humain à grande échelle et de haute qualité, l'environnement GenH2R-Sim modélise la scène en termes de poses de préhension et de trajectoires de mouvement.

En termes de poses de préhension, GenH2R-Sim a introduit de riches modèles d'objets 3D de ShapeNet, sélectionné 3 266 objets quotidiens adaptés au transfert et utilisé la méthode de génération de préhension adroite (DexGraspNet) pour générer un total de 100 Une scène de dizaines de des milliers de mains saisissant un objet. En termes de trajectoires de mouvement, GenH2R-Sim utilise plusieurs points de contrôle pour générer plusieurs courbes de Bézier lisses et introduit la rotation des mains humaines et des objets pour simuler diverses trajectoires de mouvement complexes d'objets livrés manuellement.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Dans le million de scènes de GenH2R-Sim, il dépasse non seulement de loin les derniers travaux en termes de trajectoires de mouvement (1 000 contre 1 million) et de nombre d'objets (20 contre 3 266), mais introduit également des méthodes proches de des situations réelles. Des informations interactives (par exemple, lorsque le bras du robot est suffisamment proche de l'objet, l'humain arrêtera le mouvement et attendra que le transfert soit terminé), plutôt qu'une simple lecture de trajectoire. Bien que les données générées par la simulation ne puissent pas être totalement réalistes, les résultats expérimentaux montrent que les données de simulation à grande échelle sont plus propices à l'apprentissage que les données réelles à petite échelle.

B. Génération à grande échelle d'exemples experts qui facilitent la distillation

Basé sur des données à grande échelle sur la trajectoire de la main humaine et du mouvement des objets, GenH2R génère automatiquement un grand nombre d'exemples experts. Les « experts » recherchés par GenH2R sont des planificateurs de mouvement améliorés (tels que OMG Planner). Ces méthodes sont sans apprentissage, basées sur le contrôle, ne reposent pas sur des nuages ​​de points visuels et nécessitent souvent certains états de scène (tels que la position de capture de la cible). de l'objet). Afin de garantir que le réseau politique visuel ultérieur puisse distiller des informations bénéfiques à l’apprentissage, la clé est de garantir que les exemples fournis par les « experts » ont une corrélation vision-action. Si le point d'atterrissage final est connu lors de la planification, le bras robotique peut ignorer la vision et planifier directement la position finale pour « attendre et attendre ». Cela peut empêcher la caméra du robot de voir l'objet. réseau de stratégie visuelle en aval ; Si le bras du robot est fréquemment replanifié en fonction de la position de l'objet, cela peut provoquer un mouvement discontinu du bras du robot et apparaître sous des formes étranges, rendant impossible une saisie raisonnable.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Pour générer des exemples experts adaptés à la distillation, GenH2R introduit Landmark Planning. La trajectoire de mouvement de la main humaine sera divisée en plusieurs segments en fonction de la douceur et de la distance de la trajectoire, avec Landmark comme marque de segmentation. Dans chaque segment, la trajectoire de la main humaine est fluide et la méthode experte planifie vers les points Landmark. Cette approche garantit à la fois la corrélation visuel-action et la continuité de l’action.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

C. Réseau d'apprentissage par imitation 4D assisté par prédiction

Basé sur des exemples d'experts à grande échelle, GenH2R utilise la méthode d'apprentissage par imitation pour construire un réseau de politiques 4D afin d'observer les informations du nuage de points de séries chronologiques. Effectuer des décompositions géométriques et cinématiques. Pour chaque nuage de points d'image, la transformation de pose entre le nuage de points de l'image précédente et l'algorithme itératif du point le plus proche est calculée pour estimer les informations de flux de chaque point, de sorte que le nuage de points de chaque image ait tous des caractéristiques de mouvement. Ensuite, PointNet++ est utilisé pour coder chaque image du nuage de points et finalement non seulement décode l'action égocentrique 6D finale requise, mais génère également une prédiction de la pose future de l'objet, améliorant ainsi la capacité du réseau politique à prédire les futurs mouvements des mains et des objets. .

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Différent des backbones 4D plus complexes (tels que ceux basés sur Transformer), cette architecture réseau a une vitesse d'inférence très rapide et est plus adaptée aux scénarios d'interaction homme-machine tels que la remise d'objets qui nécessitent une faible latence. en même temps, il peut également utiliser efficacement les informations de synchronisation, atteignant un équilibre entre simplicité et efficacité.

Expérience

A. Expérience d'environnement de simulation

Les méthodes GenH2R et SOTA ont été comparées dans divers paramètres. Par rapport à la méthode utilisant la formation de données réelles à petite échelle, GenH2R-Sim La méthode d'utilisation à grande échelle. Les données de simulation à grande échelle pour la formation peuvent présenter des avantages significatifs (le taux de réussite sur divers ensembles de tests est augmenté en moyenne de 14 % et la durée est raccourcie de 13 %).

Dans l'ensemble de test de données réelles s0, la méthode GenH2R peut remettre avec succès des objets plus complexes et ajuster la posture à l'avance pour éviter des ajustements de posture fréquents lorsque la pince est proche de l'objet :

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Dans l'ensemble de test de données de simulation t0 (introduit par GenH2R-sim), la méthode de GenH2R peut prédire la posture future de l'objet pour obtenir une trajectoire d'approche plus raisonnable :

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Dans l'ensemble de test de données réelles t1 ( GenH2R -sim a été introduit à partir de HOI4D (environ 7 fois plus grand que l'ensemble de tests s0 des travaux précédents), la méthode GenH2R peut être généralisée à des objets invisibles du monde réel avec différentes géométries.

B. Expérience sur machine réelle

GenH2R déploie également les stratégies apprises sur le bras robotique dans le monde réel pour compléter le saut « sim-to-real ».

Pour des trajectoires de mouvement plus complexes (telles que la rotation), la stratégie de GenH2R montre une plus grande adaptabilité ; pour des géométries plus complexes, la méthode de GenH2R peut montrer une généralisation plus forte :

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

GenH2R a réalisé des tests sur des machines réelles et des recherches d'utilisateurs sur divers objets de remise, démontrant une forte robustesse.

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

Pour plus d'expériences et de méthodes, veuillez vous référer à la page d'accueil du papier.

Présentation de l'équipe

Cet article provient du laboratoire 3DVICI de l'université de Tsinghua, du laboratoire d'intelligence artificielle de Shanghai et de l'institut de recherche Qizhi de Shanghai. Les auteurs de l'article sont Wang Zifan (co-auteur), étudiants de l'université de Tsinghua, Chen Junyu (co-auteur). -auteur), Chen Ziqing et Xie Pengwei, les instructeurs sont Yi Li et Chen Rui.

Le laboratoire de calcul de vision 3D et d'intelligence artificielle de l'université Tsinghua (appelé 3DVICI Lab) est un laboratoire d'intelligence artificielle relevant de l'Institut d'information interdisciplinaire de l'université Tsinghua. Il a été créé et dirigé par le professeur Yi Li. 3DVICI Lab s'intéresse aux problématiques les plus pointues de la vision tridimensionnelle générale et de l'interaction robotique intelligente en intelligence artificielle. Ses axes de recherche couvrent la perception incarnée, la planification et la génération d'interactions, la collaboration homme-machine, etc., et sont étroitement liés à l'application. des domaines tels que la robotique, la réalité virtuelle et la conduite autonome. L'objectif de recherche de l'équipe est de permettre aux agents intelligents de comprendre et d'interagir avec le monde tridimensionnel. Les résultats ont été publiés dans les principales conférences et revues informatiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer