Maison >Périphériques technologiques >IA >Faisant un pas de plus vers une autonomie complète, l'Université Tsinghua et la nouvelle stratégie d'auto-évolution multi-tâches de HKU permettent aux agents d'apprendre à « apprendre de l'expérience »

Faisant un pas de plus vers une autonomie complète, l'Université Tsinghua et la nouvelle stratégie d'auto-évolution multi-tâches de HKU permettent aux agents d'apprendre à « apprendre de l'expérience »

PHPzavant: 2024-02-07 09:31:141511parcourir

"Apprendre de l'histoire peut nous aider à comprendre les hauts et les bas." L'histoire du progrès humain est un processus d'auto-évolution qui s'appuie constamment sur l'expérience passée et repousse les limites des capacités. Nous apprenons des échecs passés et corrigeons les erreurs ; nous apprenons des expériences réussies pour améliorer l’efficience et l’efficacité. Cette auto-évolution traverse tous les aspects de la vie : en résumant nos expériences pour résoudre des problèmes de travail, en utilisant des modèles pour prédire la météo, nous continuons à apprendre et à évoluer à partir du passé.

Réussir à extraire les connaissances de l'expérience passée et à les appliquer aux défis futurs est une étape importante sur la route de l'évolution humaine. Alors, à l’ère de l’intelligence artificielle, les agents IA peuvent-ils faire la même chose ?

Ces dernières années, des modèles de langage tels que GPT et LLaMA ont démontré des capacités étonnantes dans la résolution de tâches complexes. Cependant, même s’ils peuvent utiliser des outils pour résoudre des tâches spécifiques, ils manquent intrinsèquement de connaissances et d’apprentissages tirés des succès et des échecs passés. C'est comme un robot qui ne peut effectuer qu'une tâche spécifique. Bien qu'il accomplisse bien la tâche en cours, il ne peut pas faire appel à son expérience passée pour l'aider face à de nouveaux défis. Nous devons donc développer davantage ces modèles afin qu’ils puissent accumuler des connaissances et des expériences et les appliquer dans de nouvelles situations. En introduisant des mécanismes de mémoire et d'apprentissage, nous pouvons rendre ces modèles plus complets en matière d'intelligence, capables de réagir avec flexibilité à différentes tâches et situations, et de nous inspirer des expériences passées. Cela rendra les modèles linguistiques plus puissants et plus fiables et contribuera à faire progresser le développement de l’intelligence artificielle.

En réponse à ce problème, une équipe conjointe de l'Université Tsinghua, de l'Université de Hong Kong, de l'Université Renmin et de Wall-Facing Intelligence a récemment proposé une nouvelle stratégie d'auto-évolution des agents intelligents : Investigate-Consolidate-Exploit, ICE). Il vise à améliorer l’adaptabilité et la flexibilité des agents d’IA grâce à l’auto-évolution entre les tâches. Cela peut non seulement améliorer l'efficience et l'efficacité de l'agent dans la gestion de nouvelles tâches, mais également réduire considérablement la demande pour les capacités du modèle de base d'agent.

L'émergence de cette stratégie a en effet ouvert un nouveau chapitre dans l'auto-évolution des agents intelligents, et marque également une nouvelle étape vers l'obtention d'agents pleinement autonomes.

Titre de l'article : Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
Lien de l'article : https://arxiv.org/abs/2401.13996

Deux aspects de l'auto-évolution des agents : la planification et l'exécution

Les agents complexes actuels peuvent être principalement divisés en tâches. et les aspects d’exécution des tâches. En termes de planification des tâches, l'agent décompose les besoins des utilisateurs et développe des stratégies cibles détaillées grâce à un raisonnement logique. En termes d'exécution des tâches, l'agent utilise divers outils pour interagir avec l'environnement afin d'atteindre les sous-objectifs correspondants.

Afin de mieux promouvoir la réutilisation de l'expérience passée, l'auteur découple d'abord la stratégie évolutive en deux aspects dans cet article. Plus précisément, l'auteur prend comme exemples la structure arborescente de planification des tâches et l'exécution de l'outil de chaîne ReACT dans l'architecture d'agent XAgent pour présenter en détail la méthode de mise en œuvre de la stratégie ICE.

Pour la planification de mission, l'auto-évolution est divisée en trois étapes suivantes selon ICE :

Dans la phase d'exploration, l'agent enregistre toute la structure arborescente de planification des tâches et détecte dynamiquement l'état d'exécution de chaque sous-objectif en même temps
Dans la phase de solidification, l'agent élimine d'abord tous les échecs ; nœuds cibles, puis pour chaque objectif atteint avec succès, l'agent organisera tous les nœuds feuilles du sous-arbre avec l'objectif afin de former une chaîne de planification (Workflow)

Stratégie d'auto-évolution ICE pour l'exécution des tâches des agents Faisant un pas de plus vers une autonomie complète, lUniversité Tsinghua et la nouvelle stratégie dauto-évolution multi-tâches de HKU permettent aux agents dapprendre à « apprendre de lexpérience »

La stratégie d'auto-évolution pour l'exécution des tâches est toujours divisée en trois étapes d'ICE, parmi lesquelles :

Pipeline de type automate ; structure , la séquence d'appel de l'outil et la relation de transfert entre les appels seront corrigées, et les appels répétés seront supprimés, une logique de branche sera ajoutée, etc. pour rendre le processus d'exécution automatisé de l'automate plus robuste

Expérience d'auto-évolution sous le framework XAgent

L'auteur a testé la stratégie d'auto-évolution ICE proposée dans le nombre d'appels de modèle, améliorant ainsi l'efficacité et réduisant les frais généraux.

L'expérience stockée a un taux de réutilisation élevé dans le cadre de la stratégie ICE, ce qui prouve l'efficacité d'ICE.

La stratégie ICE peut améliorer le taux d'achèvement des sous-tâches tout en réduisant le nombre de réparations planifiées.
Grâce à l'expérience passée, les exigences en matière de capacités de modèle pour l'exécution des tâches ont été considérablement réduites. Plus précisément, en utilisant GPT-3.5 combiné à une expérience antérieure en matière de planification et d'exécution de tâches, l'effet peut être directement comparable à GPT-4.
Après avoir exploré et solidifié le stockage d'expérience, l'exécution de la tâche d'ensemble de test sous différentes stratégies ICE d'agent

Dans le même temps, l'auteur a également mené des expériences d'ablation supplémentaires : avec l'expérience de stockage augmentant progressivement, les performances de l’agent s’améliorent-elles de plus en plus ? La réponse est oui. De zéro expérience, demi-expérience à une expérience complète, le nombre d'appels au modèle de base diminue progressivement, tandis que l'achèvement des sous-tâches augmente progressivement et le taux de réutilisation augmente également. Cela montre qu'une plus grande expérience passée peut mieux promouvoir l'exécution des agents et obtenir des effets d'échelle.

Statistiques des résultats des expériences d'ablation des performances des tâches d'ensemble de tests sous différentes quantités de stockage d'expérience

Conclusion

Faisant un pas de plus vers une autonomie complète, lUniversité Tsinghua et la nouvelle stratégie dauto-évolution multi-tâches de HKU permettent aux agents dapprendre à « apprendre de lexpérience » Imaginez que dans un monde où chacun peut déployer des agents, le nombre d'expériences réussies sera celui de l'individu Les tâches de l'agent continuent de s'accumuler, les utilisateurs peuvent également partager ces expériences dans le cloud et dans la communauté. Ces expériences inciteront l’agent intelligent à acquérir continuellement des capacités, à évoluer et à atteindre progressivement une complète autonomie. Nous nous rapprochons d’une telle époque.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 for 人工智能 https 自动化 gpt llama

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：La technologie de lecture des pensées de l'IA a été améliorée ! Une paire de lunettes contrôle directement le chien robot Boston, faisant des robots contrôlés par le cerveau une réalitéArticle suivant：La technologie de lecture des pensées de l'IA a été améliorée ! Une paire de lunettes contrôle directement le chien robot Boston, faisant des robots contrôlés par le cerveau une réalité

Articles Liés

Voir plus