Maison >Périphériques technologiques >IA >Alors que je discutais encore avec ChatGPT, quelqu'un avait déjà commencé à l'utiliser pour contrôler le robot afin qu'il effectue son travail.

Alors que je discutais encore avec ChatGPT, quelqu'un avait déjà commencé à l'utiliser pour contrôler le robot afin qu'il effectue son travail.

PHPz
PHPzavant
2023-04-12 23:55:011654parcourir

Avez-vous déjà eu envie de dire à un robot quoi faire en utilisant vos propres mots, tout comme si vous parliez à un humain ?

Par exemple, dites simplement à votre robot assistant domestique "S'il vous plaît, réchauffez mon déjeuner" et il trouvera le micro-ondes tout seul. Incroyable, non ?

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Bien que le langage soit le moyen le plus intuitif pour les humains d'exprimer leurs intentions, pendant longtemps, les gens se sont encore largement appuyés sur des codes manuscrits pour contrôler les robots. Cependant, lorsque ChatGPT apparaîtra, cette situation changera.

Dans une étude récente, une équipe Microsoft explore comment utiliser le nouveau modèle de langage d'IA d'OpenAI, ChatGPT, pour rendre possible l'interaction naturelle entre l'homme et la machine.

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Lien papier : https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf

ChatGPT est un langage texte et A modèle formé sur un corpus d’interactions humaines afin qu’il puisse générer des réponses cohérentes et grammaticalement correctes à un large éventail d’invites et de questions. Le but de cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde réel pour aider les robots à accomplir des tâches. Les chercheurs espèrent que cela permettra aux gens d'interagir plus facilement avec les robots sans avoir à apprendre des langages de programmation complexes ou les détails des systèmes robotiques.

Le principal défi de la recherche est d'enseigner à ChatGPT comment résoudre des problèmes en tenant compte des lois de la physique, de l'environnement opérationnel et de la façon dont le robot utilise les mouvements du corps pour modifier l'environnement.

Il s'avère que ChatGPT peut faire beaucoup de choses tout seul, mais il a encore besoin d'aide. Dans cet article, l'équipe décrit une série de principes de conception qui peuvent être utilisés pour guider les modèles de langage dans la résolution de tâches robotiques, notamment (mais sans s'y limiter) des structures d'invite ad hoc, des API de haut niveau et des commentaires via du texte humain. Les chercheurs pensent que ce travail n’est que le début d’une transformation dans le développement de systèmes robotiques et espèrent que cette étude inspirera d’autres chercheurs à rejoindre ce domaine de recherche intéressant.

Les défis auxquels est confrontée la robotique d'aujourd'hui et comment ChatGPT peut aider

Le processus actuel de fonctionnement des robots commence avec les ingénieurs ou les utilisateurs techniques, qui doivent convertir les exigences des tâches en code système. Les ingénieurs seront au courant du flux de travail, écrivant constamment du nouveau code et des spécifications pour corriger le comportement du robot. Dans l’ensemble, ce processus est lent (les utilisateurs doivent écrire du code de bas niveau), coûteux (nécessite des utilisateurs hautement qualifiés ayant une connaissance approfondie de la robotique) et inefficace (nécessite plusieurs interactions pour fonctionner correctement).

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Mais ChatGPT ouvre un nouveau paradigme de bot et permet aux utilisateurs potentiellement non techniques de s'impliquer dans la boucle, en alimentant de grands modèles de langage (LLM) tout en surveillant les performances du bot. Commentaires avancés. En suivant les principes de conception recherchés, ChatGPT peut générer du code pour des scénarios robotiques. Sans aucun réglage fin, l’étude exploite les connaissances du LLM pour contrôler différentes formes de robots pour diverses tâches. Dans leurs travaux, les chercheurs ont démontré plusieurs exemples de ChatGPT résolvant des défis robotiques, ainsi que des déploiements de robots complexes dans les domaines opérationnels, aériens et de navigation.

Bots et ChatGPT : principes de conception

Prompting LLM est une science hautement empirique. La recherche a établi un ensemble de méthodes et de principes de conception pour écrire des invites pour les tâches du robot par essais et erreurs :

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

  • Tout d'abord, la recherche a défini un ensemble d'API ou de bibliothèques de fonctions de robot de haut niveau. Cette bibliothèque peut être spécifique à un robot particulier et correspondre à une implémentation de bas niveau existante dans la pile de contrôle ou la bibliothèque de perception du robot. Il est important d'utiliser des noms descriptifs pour les API de haut niveau afin que ChatGPT puisse déduire leur comportement.
  • Ensuite, les chercheurs ont écrit une invite de texte pour ChatGPT qui décrit l'objectif de la tâche tout en indiquant clairement quelles fonctions des bibliothèques de haut niveau sont concernées ; disponible de. Les invites peuvent également inclure des informations sur les contraintes des tâches ou sur la manière dont ChatGPT doit former ses réponses (un langage de codage spécifique, utilisant des éléments d'analyse auxiliaires)
  • Les utilisateurs évaluent le code de sortie de ChatGPT dans la boucle, soit par inspection directe, soit à l'aide d'un simulateur ; S'ils le souhaitent, les utilisateurs peuvent fournir des commentaires à ChatGPT sur la qualité et la sécurité de leurs réponses en utilisant un langage naturel.

Si l'utilisateur est satisfait de la solution, le code peut enfin être déployé sur le robot.

Assez de théories, que peut faire exactement ChatGPT ?

Regardons quelques exemples, vous pouvez également trouver d'autres études de cas dans le référentiel.

Planification de mission à échantillon zéro​

Les chercheurs ont laissé ChatGPT contrôler un vrai drone, et il s'est avéré être une interface linguistique très intuitive entre les utilisateurs non techniques et le robot. Lorsque les instructions utilisateur sont ambiguës, ChatGPT pose des questions de clarification et écrit des structures de code complexes pour que le drone inspecte visuellement l'architecture, telles que des motifs en zigzag. Il a même appris à prendre des selfies ! Les chercheurs ont également utilisé le simulateur Microsoft AirSim pour utiliser ChatGPT dans un scénario d'inspection industrielle simulé. Le modèle est capable d'analyser efficacement les intentions de haut niveau et les indices géométriques de l'utilisateur pour contrôler avec précision le drone.

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Les utilisateurs dans la boucle : lorsque des tâches complexes nécessitent une conversation​

Ensuite, les chercheurs ont utilisé ChatGPT pour des scénarios de fonctionnement du bras robotique et utilisé le feedback conversationnel pour enseigner le modèle comment combiner l'API initialement fournie dans des fonctions avancées plus complexes : programmation automatique ChatGPT. Le modèle est capable de relier logiquement les compétences acquises en utilisant des stratégies basées sur le programme pour effectuer des actions telles que l'empilement de blocs. Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

De plus, cette maquette montre un exemple parfait de connexion de domaines textuels et physiques lors de la construction du logo Microsoft à partir de blocs de bois. Non seulement il est capable de rappeler le logo à partir d'une base de connaissances interne, mais il est également capable de « dessiner » le logo (sous forme de code SVG), puis d'utiliser les compétences acquises ci-dessus pour déterminer lequel des mouvements du robot existant peut constituer son logo. apparence.

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Ensuite, les chercheurs ont demandé à ChatGPT d'écrire un algorithme permettant au drone d'atteindre sa cible aérienne sans heurter d'obstacles. Ils ont indiqué au modèle que le drone était équipé d'un capteur de distance orienté vers l'avant, et ChatGPT a immédiatement programmé la plupart des éléments clés de l'algorithme. Cette tâche nécessite une conversation avec un humain, et la capacité de ChatGPT à apporter des améliorations localisées au code en utilisant uniquement des commentaires linguistiques est impressionnante.

Boucle Perception-Action : Les robots perçoivent le monde avant d'agir

La capacité de percevoir le monde (perception) avant de faire quelque chose (action) est le fondement de tout système robotique. Les chercheurs ont donc décidé de tester la compréhension de ChatGPT de ce concept et lui ont demandé d'explorer un environnement jusqu'à ce qu'il trouve un objet spécifié par l'utilisateur. L'étude fournit au modèle des fonctionnalités telles que des API de détection d'objets et de distance d'objet, et vérifie que le code qu'il génère implémente avec succès la boucle sens-action.

Alors que je discutais encore avec ChatGPT, quelquun avait déjà commencé à lutiliser pour contrôler le robot afin quil effectue son travail.

Pendant la phase expérimentale, les chercheurs ont mené des expériences supplémentaires pour évaluer si ChatGPT pouvait prendre des décisions en temps réel sur l'endroit où le robot devait aller en fonction des retours des capteurs (plutôt que de laisser ChatGPT générer une boucle de code pour prendre ces décisions). Fait intéressant, il a été vérifié qu'une description textuelle de l'image de la caméra pouvait être insérée dans chaque étape de la conversation, et le modèle était capable de comprendre comment contrôler le robot jusqu'à ce qu'il atteigne un objet spécifique.

PromptCraft, LLM + outil collaboratif open source pour la recherche en robotique

Bonne L'ingénierie Prompt est essentielle au succès des grands modèles de langage, tels que ChatGPT pour les tâches robotiques. Malheureusement, Prompt est une science empirique et il manque de ressources complètes et accessibles, y compris un mélange d'exemples pour aider les chercheurs et les passionnés du domaine. Pour combler cette lacune, les chercheurs ont introduit « PromptCraft », une plateforme collaborative open source où chacun peut partager des exemples de stratégies Prompt pour différentes catégories de robots, et les chercheurs ont publié tous les outils utilisés dans cette étude.

En plus de la conception Prompt, la recherche espère également inclure plusieurs simulateurs de robots et interfaces permettant aux utilisateurs de tester leurs algorithmes générés par ChatGPT. Pour commencer, la recherche a également publié un environnement AirSim intégré à ChatGPT que tout le monde peut utiliser pour développer ces idées.

Interface ChatGPT-AirSim

Laissez les robots sortir du laboratoire et entrer dans le monde

La sortie de ces technologies mérite d'être célébrée, car elle élargira le public de la technologie robotique. Les chercheurs de Microsoft pensent que le contrôle des robots basé sur le langage jettera les bases pour faire sortir les robots des laboratoires scientifiques et les intégrer dans la vie des utilisateurs quotidiens.

Cet article tient à souligner que la sortie de ChatGPT n'est pas destinée à être déployée directement sur un robot sans une analyse minutieuse. Les chercheurs encouragent les utilisateurs à exploiter la puissance de la simulation afin d’évaluer ces algorithmes avant un éventuel déploiement réel et à toujours prendre les précautions de sécurité nécessaires. Les travaux décrits dans cet article ne représentent qu’une petite partie de ce qui est possible à l’intersection des modèles de langage à grande échelle opérant dans le domaine de la robotique et, espérons-le, inspireront d’autres recherches.

Lien original : https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer