Maison > Article > Périphériques technologiques > Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.
Regardez bien, l'homme en face de vous donne constamment des instructions en langage naturel à un robot, telles que "Poussez l'étoile verte entre les blocs rouges", "Déplacez le bloc bleu vers le coin inférieur gauche", répond le robot. à chaque instruction saisie une fois peut être complétée en temps réel.
Depuis les années 1960, les experts en robotique tentent de faire comprendre aux robots les « instructions en langage naturel » des gens et d'effectuer des actions spécifiques.
Idéalement, les futurs robots réagiront en temps réel à toute tâche pertinente que les utilisateurs pourront décrire en langage naturel.
Surtout dans un environnement humain ouvert, les utilisateurs peuvent avoir besoin de personnaliser le comportement lorsque le robot se comporte, en fournissant des corrections rapides, telles que « arrêtez-vous, bougez un peu le bras vers le haut » ou spécifiez des limites « déplacez-vous lentement vers la droite ».
De plus, le langage en temps réel peut faciliter la collaboration entre les humains et les robots sur des tâches complexes à long terme, où les humains peuvent guider les opérations des robots de manière itérative et interactive, avec des commentaires verbaux occasionnels.
Le travail actuel peut être grossièrement divisé en trois parties suivantes :
1 Le corps du robot doit exister dans le monde réel
2. commandes en langage naturel riches ;
3. Capacité à exécuter des commandes en langage interactif (interactives), c'est-à-dire que le robot doit accepter de nouvelles instructions en langage naturel pendant l'exécution de la tâche.
Quant au troisième point, la vitesse actuelle de développement interactif dans le domaine des robots est encore très lente, ce qui fait également que les robots manquent de « sens de la vie ».
Récemment, Google a publié un article proposant un tout nouveau cadre capable de produire des robots interactifs du monde réel et en temps réel qui exécutent des instructions en langage naturel, et les ensembles de données, environnements, références et stratégies pertinents sont tous ouverts à l'utilisation.
Lien papier : https://arxiv.org/pdf/2210.06407.pdf
Page d'accueil du projet : https://interactive-langage.github.io/
Grâce à la formation au clonage comportemental sur un ensemble de données de centaines de milliers de trajectoires annotées linguistiquement, la politique qui en résulte peut exécuter avec habileté un ordre de grandeur supérieur à celui des travaux précédents réalisés. Dans le monde réel, les chercheurs ont estimé que la méthode avait un taux de réussite de 93,5 % sur 87 000 chaînes différentes en langage naturel.
Et la même stratégie peut être guidée par les humains en temps réel via le langage naturel pour résoudre un large éventail d'objectifs précis de réarrangement à longue distance, tels que "faire un smiley avec des blocs de construction", etc.
L'ensemble de données publié avec l'article comprend près de 600 000 trajectoires étiquetées par langue, ce qui est un ordre de grandeur plus grand que les ensembles de données précédemment disponibles.
Pour intégrer le robot dans le monde réel, le plus important est de pouvoir traiter des instructions ouvertes en langage naturel, mais dans une perspective d'apprentissage automatique, laissez le robot apprendre un vocabulaire ouvert La langue est un énorme défi.
Les modèles de représentation ouverte doivent effectuer un grand nombre de tâches, notamment de petites instructions correctives, etc. Les configurations d'apprentissage multitâches existantes utilisent des ensembles de données d'apprentissage par imitation soigneusement conçus ou des fonctions complexes de récompense d'apprentissage par renforcement pour piloter l'apprentissage pour chaque tâche, et les ensembles prédéfinis conçus de cette manière sont destinés à ne pas être très volumineux.
Par conséquent, une question clé dans la tâche de vocabulaire ouvert est la suivante : comment le processus de collecte de données sur les robots peut-il être étendu pour couvrir des milliers d'actions dans des environnements réels, et comment tous ces comportements peuvent-ils être liés aux utilisateurs finaux ? est-il possible de réellement fournir des instructions en langage naturel ?
Dans les langages interactifs, la clé du cadre d'apprentissage par simulation à grande échelle proposé par Google est l'évolutivité de la création de grands ensembles de données de démonstration de robots conditionnés multilingues.
Contrairement à la configuration précédente où toutes les compétences devaient être définies, puis une démonstration organisée de chaque compétence collectée, les chercheurs travaillent constamment sur plusieurs robots sans réinitialisation de scène ni segmentation des compétences de bas niveau.
Toutes les données, y compris les données ayant échoué (telles que le retrait de blocs d'une table), doivent passer par un processus de réétiquetage du langage HindSight avant d'être associées au texte.
Dans ce processus, les annotateurs doivent regarder de longues vidéos de robots pour identifier autant de comportements que possible, marquer l'heure de début et de fin de chaque comportement et utiliser des formes illimitées de langage naturel pour décrire chaque segment.
La chose la plus importante est que par rapport à l'ensemble de bootstrapping précédent, toutes les compétences utilisées pour la formation sont révélées de bas en haut à partir des données elles-mêmes, plutôt que prédéterminées par les chercheurs.
Les chercheurs simplifient intentionnellement la méthode d'apprentissage et l'architecture autant que possible. Le Robot Policy Network est un transformateur d'attention croisée qui mappe la vidéo et le texte à 5 Hz aux actions du robot à 5 Hz sans perte auxiliaire (perte auxiliaire). . pertes) en utilisant un comportement d’apprentissage supervisé standard pour cloner la cible.
Pendant les tests, de nouvelles commandes en langage naturel peuvent être envoyées au réseau politique via la synthèse vocale à des fréquences allant jusqu'à 5 Hz.
Au cours du processus d'annotation, les chercheurs ont collecté un ensemble de données Language-Table contenant plus de 440 000 démonstrations réelles et 180 000 simulées de robots exécutant des commandes en langage naturel, ainsi que les actions entreprises par les robots lors des démonstrations. . séquence d'actions.
Il s'agit également actuellement du plus grand ensemble de données de démonstration de robots conditionnés par le langage, directement amélioré d'un ordre de grandeur.
Language-Table a lancé un benchmark d'apprentissage par simulation, qui peut être utilisé pour la sélection de modèles ou pour évaluer la capacité de robots entraînés par différentes méthodes à exécuter des instructions.
Au cours d'expériences, les chercheurs ont découvert que lorsqu'un robot peut suivre des instructions en langage naturel saisies en temps réel, la capacité du robot devient particulièrement puissante.
Sur le site Web du projet, les chercheurs ont démontré que les utilisateurs peuvent guider le robot à travers des séquences complexes à long horizon en utilisant uniquement le langage naturel pour résoudre des objectifs qui nécessitent beaucoup de temps pour un contrôle coordonné précis.
Par exemple, s'il y a plusieurs blocs sur la table, la commande peut être "faire un smiley avec les yeux verts" ou "les mettre tous sur une ligne verticale" etc.
Étant donné que le robot a été entraîné à suivre un langage à lexique ouvert, l'expérience a vu le robot répondre à une gamme de corrections verbales différentes, telles que "Déplacez doucement l'étoile rouge vers la droite".
Enfin, les chercheurs ont exploré les avantages du langage en temps réel, notamment en rendant la collecte de données sur les robots plus efficace. Un opérateur humain peut contrôler quatre robots en utilisant le langage parlé en même temps, ce qui pourrait potentiellement élargir l'échelle de la collecte de données sur les robots. l'avenir, sans qu'il soit nécessaire d'équiper chaque robot d'un annotateur.
Bien que le projet soit actuellement limité à un ensemble fixe d'objets sur le bureau, les résultats expérimentaux sur les langages interactifs peuvent fournir des indications préliminaires selon lesquelles l'apprentissage par imitation à grande échelle peut effectivement produire des robots interactifs en temps réel capables de suivre librement -form terminaux Commande utilisateur.
Afin de promouvoir l'avancement de la technologie de contrôle du langage en temps réel pour les robots physiques, les chercheurs ont créé Language-Table en open source, qui constitue actuellement le plus grand ensemble de données de démonstration de robots réels basé sur des conditions linguistiques et peut également être utilisé comme référence de simulation connexe.
Les chercheurs pensent que le rôle de cet ensemble de données ne se limite peut-être pas au domaine du contrôle des robots, mais peut également être utilisé pour étudier la prédiction vidéo conditionnelle du langage et de l'action, la modélisation du langage conditionnel vidéo des robots ou la recherche dans un domaine plus large. environnement d'apprentissage automatique De nombreuses autres questions actives intéressantes constituent un nouveau point de départ.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!