Maison >Périphériques technologiques >IA >Ouvrez tout le processus d'« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

Ouvrez tout le processus d'« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

PHPzoriginal: 2024-06-13 18:25:27470parcourir

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

La capacité d'auto-évolution de l'intelligence générale de l'IA n'est pas hors de portée.

L'agent basé sur LLM n'a plus besoin de l'aide de superviseurs humains et commence à réaliser « son auto-évolution » !

Après avoir appris la trajectoire experte, cet agent a acquis des capacités générales de base, peut explorer et apprendre dans un environnement et des tâches inconnus plus larges et plus réalistes, et s'améliorer continuellement grâce aux commentaires externes.

Récemment, la plateforme AgentGym lancée par l'équipe Langue et Vision de l'Université de Fudan a ouvert l'ensemble du processus de « échantillonnage de données, réglage fin de la formation, auto-évolution et évaluation des capacités » pour un grand modèle de langage agents. Sur la base de l'algorithme AgentEvol proposé par cette plateforme, la capacité d'auto-évolution d'un agent général a été explorée pour la première fois, et elle s'est exceptionnellement bien comportée sur un certain nombre de tâches d'agent, comparables aux modèles SOTA tels que GPT-4 et Claude.

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

Lien papier : https://arxiv.org/abs/2406.04151
Référentiel de code AgentGym : https://github.com/WooooDyy/AgentGym

Contexte de recherche

Développer un agent polyvalent multitâche capable de résoudre et de s'adapter à des tâches complexes est depuis longtemps un objectif important de la communauté de l'intelligence artificielle.

Semblable au processus d'apprentissage humain, les agents polyvalents commencent par commencer à apprendre les connaissances et les compétences les plus élémentaires par l'imitation.

Avec la maîtrise des capacités de base, nous nous attendons non seulement à ce que l'agent puisse apprendre et s'adapter en permanence à de nombreuses tâches inédites grâce à l'interaction avec différents environnements, mais aussi apprendre de sa propre expérience et des commentaires externes Riche en sagesse et développer un certain degré de capacité de généralisation (Figure 1).

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

^{Figure 1 : Diagramme schématique d'un agent polyvalent de base réalisant une "auto-évolution". L'agent effectue d'abord un clonage comportemental sous la supervision humaine, puis explore et apprend dans différents environnements et tâches externes pour parvenir à son auto-évolution.}

Avec leurs excellentes capacités générales, les grands modèles de langage sont considérés comme l'une des bases importantes pour la construction de tels agents intelligents. Les domaines de recherche actuels sont explorés selon deux directions principales pour stimuler le développement ultérieur de la technologie des agents.

La méthode de clonage de comportement qui s'appuie sur la supervision humaine nécessite que l'agent imite progressivement les données de trajectoire fournies par des experts. Bien que cette méthode soit efficace, elle est difficile à étendre en raison de la limitation des ressources d’annotation. L'exploration de l'environnement est également relativement limitée, et il est facile de rencontrer des goulots d'étranglement en termes de performances ou de généralisation.

Face aux défis ci-dessus, l'auteur explore pour la première fois le potentiel d'un

agent polyvalent doté de capacités de base pour s'auto-évoluer dans une variété d'environnements et de tâches.

Afin d'atteindre cet objectif de recherche, l'auteur a identifié « trois piliers clés » qui favorisent l'auto-évolution des agents intelligents. Ces piliers sont les éléments centraux de la recherche.

Des environnements et tâches diversifiés permettent aux agents d'interagir et de se former de manière dynamique et complète, plutôt que d'être limités à un environnement isolé.

Un ensemble de données de trajectoire de taille appropriée aide l'agent à se doter d'instructions de base suivant les capacités et les connaissances de base des tâches.
Un algorithme évolutif efficace et évolutif qui stimule la capacité de généralisation des agents dans des environnements de différentes difficultés.

^{Figure 2 : Diagramme schématique de la plateforme AgentGym. La plateforme couvre un total de 14 environnements répartis dans différentes catégories, chacun déployé en tant que service HTTP. Le client fournit une interface unifiée encapsulée pour l'agent afin de faciliter l'interaction avec l'environnement. A travers la méthode AgentEvol, les auteurs explorent l'auto-évolution des agents dans différents environnements et tâches. De plus, la plateforme fournit l'ensemble de tests AgentEval pour effectuer une évaluation complète des capacités de l'agent.}

Tournant autour de ces trois piliers, le travail de recherche de l'auteur se reflète dans les aspects suivants :

"AgentGym", une application qui contient 14 environnements spécifiques et 89 types de tâches spécifiques. La plate-forme interactive (Figure 2) prend en charge la formation des agents de modèles de langage étendus. La plateforme est basée sur des services HTTP et fournit une interface API unifiée pour différents environnements, prenant en charge l'échantillonnage de trajectoire, l'interaction multi-tours, l'évaluation en ligne et le retour en temps réel.
"AgentEval", un benchmark de test d'agents stimulant. « AgentTraj » et « AgentTraj-L » sont des ensembles de données de trajectoire d'experts construits grâce à l'amélioration des instructions et à l'annotation de modèles de crowdsourcing/SOTA. Après l'unification du format et le filtrage des données, il aide l'agent à acquérir des capacités de base de résolution de tâches complexes.
"AgentEvol", un nouvel algorithme qui stimule l'auto-évolution des agents à travers les environnements. La motivation de cet algorithme est d’attendre de l’agent qu’il mène une exploration autonome face à des tâches et des instructions inédites, et qu’il apprenne et optimise à partir de nouvelles expériences.

La plateforme AgentGym est un tout nouveau cadre qui prend en charge l'échantillonnage de trajectoires d'agents, l'auto-évolution et l'évaluation des capacités de grands modèles de langage. Il se caractérise par la fourniture de commentaires au format diversifié, en temps réel, simultanés et unifiés. Il vise à aider la communauté de l’intelligence artificielle à explorer plus facilement les agents basés sur LLM dotés de capacités générales.

AgentGym - une plateforme d'agent intégrée pour la formation et l'évaluation interactives

AgentGym intègre plusieurs environnements, des données de trajectoire riches et des tests de référence complets. Il simplifie le processus de configuration de l'environnement grâce à l'interface d'opération d'environnement unifiée. Plus précisément, AgentGym possède les fonctionnalités suivantes :

Environnements divers :

AgentGym contient 14 environnements et 89 tâches, couvrant la navigation Web, les jeux de mots, le contrôle incorporé, l'utilisation d'outils et les catégories de code. Que vous soyez déterminé à créer des agents spécifiques à une tâche ou des agents universels généralement capables, le framework AgentGym peut fournir le support correspondant.

Parmi eux, chaque environnement est déployé indépendamment, ce qui évite les conflits de dépendances entre différents environnements et assure l'évolutivité de la plateforme. Par exemple, l'environnement WebShop, une plateforme interactive pour les tâches d'achat en ligne, peut être facilement déployé avec une seule ligne de commandes.

Basé sur les données :

Les données de trajectoire d'AgentGym adoptent un format ReAct unifié, qui combine des étapes de raisonnement et des séquences d'action via des paires « Pensée-Action ». Le coin supérieur gauche de la figure 2 fournit un exemple. de données de trajectoire.

La plate-forme a construit un ensemble d'instructions 20509 grâce à une collecte et une amélioration approfondies des instructions, et a sélectionné 1 160 instructions diversifiées pour créer un ensemble de tests de référence AgentEval pour une évaluation complète basée sur l'agent LLM.

Dans le même temps, l'auteur a utilisé GPT-4-Turbo et l'annotation de crowdsourcing pour collecter des données de trajectoire, et les a strictement filtrées en fonction des récompenses ou de l'exactitude pour créer AgentTraj, une collection de 6130 trajectoires de haute qualité. Afin de démontrer le potentiel de performance de la méthode de clonage comportemental, les chercheurs l’ont encore étendue et ont obtenu AgentTraj-L contenant 14485 trajectoires.

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

^{Figure 3 : Statistiques de 14 environnements de la plateforme AgentGym (couvrant le nombre de types de tâches, la taille du jeu d'instructions, la taille du jeu d'évaluation, la taille du jeu de trajectoires et le nombre moyen de cycles d'interaction).}

Architecture modulaire et pipeline efficace :

La plateforme AgentGym adopte une conception modulaire, les développeurs peuvent facilement ajouter ou modifier des environnements. L'environnement est déployé sur différents serveurs (EnvServers) pour obtenir une interaction flexible et efficace via le Service HTTP. Les clients (EnvClients) encapsulent les fonctions requises pour interagir avec l'environnement et fournissent les interfaces d'opération correspondantes.

Le composant principal AgentController sert d'intermédiaire entre l'agent et l'environnement, fournissant un formateur (Trainer) qui optimise la stratégie de l'agent et un évaluateur de performances (Evaluator) qui prend en charge plusieurs environnements. L'interface d'exploitation unifiée simplifie l'interaction entre l'agent et l'environnement, permettant aux utilisateurs de se concentrer sur l'optimisation des algorithmes et la formation des agents. Figure 4 : Présentation de l'architecture de la plateforme AgentGym.

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

Avantages uniques :

Par rapport à d'autres frameworks, l'avantage d'AgentGym est qu'il fournit non seulement une large gamme de collections d'environnements, mais fournit également un retour d'information sur l'environnement en temps réel au agent via une plateforme interactive

AgentEvol - Algorithme général d'évolution des agents

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général Basé sur la suite AgentGym, les chercheurs peuvent facilement échantillonner, former et évaluer les agents. Afin d'explorer le potentiel « d'auto-évolution » des agents à usage général, l'équipe Fudan Language and Vision a proposé l'algorithme AgentEvol (Figure 6), qui aide les agents à améliorer leurs capacités dans plusieurs environnements et tâches. L'idée centrale de cet algorithme est de permettre à l'agent d'améliorer ses performances grâce à l'exploration et à l'apprentissage, notamment face à des tâches et des instructions qu'il n'a jamais vues auparavant.

^{~ agent général (agent de base généralement capable), de sorte qu'il dispose d'une instruction de base suivant la capacité et les connaissances préalables nécessaires. Dans ce processus, l'agent imite étape par étape la trajectoire de l'expert, y compris le processus de réflexion (pensée) et d'action (action).}

Ensuite, cet agent intelligent général de base interagit avec différents environnements et complète son auto-évolution. Il fait face à des instructions et des requêtes plus diverses provenant de différents environnements et améliore progressivement sa capacité à accomplir diverses tâches.

" : Dans cette étape, l'agent interagit avec la stratégie actuelle dans le cadre de la stratégie actuelle. L'environnement interagit, générant de nouvelles trajectoires et évaluer leurs récompenses, formant une distribution politique optimale estimée. Plus précisément, l'agent interagit avec plusieurs environnements et génère une série de trajectoires comportementales. Chaque trajectoire est le produit de l'interaction entre l'agent et l'environnement selon la stratégie actuelle, incluant la pensée de l'agent, le comportement de l'agent et l'observation de l'environnement. Ensuite, l’environnement donnera un signal de récompense à chaque trajectoire en fonction du degré d’adéquation entre la trajectoire et l’objectif de la tâche.

Étape d'apprentissage
」 : Dans cette étape, l'agent met à jour les paramètres en fonction de la distribution de stratégie optimale estimée pour la rapprocher de la stratégie optimale. Plus précisément, l'agent utilise les données de trajectoire et de récompense collectées lors de l'étape d'exploration pour s'optimiser grâce à une fonction d'objectif d'optimisation basée sur la pondération des récompenses de trajectoire. Notez que dans l'étape d'apprentissage, afin de réduire le surajustement, l'auteur optimise toujours « l'agent général de base » au lieu de l'agent obtenu lors du cycle d'optimisation précédent.

En alternant les étapes d'exploration et d'apprentissage, l'algorithme AgentEvol optimise progressivement l'agent, améliore considérablement ses capacités dans de multiples environnements et atteint l'objectif d'"auto-évolution".
Introduction expérimentale

Cette étude a mené une série d'expériences d'exploration et d'évolution inter-environnementales sur l'agent à travers le cadre AgentGym. L'expérience vise à évaluer la capacité des agents de base à s'auto-explorer et à évoluer dans des

. À cette fin, l’auteur adopte un ensemble d’instructions plus large pour élargir l’espace d’exploration de l’agent.

Dans 11 environnements différents, les agents formés à l'aide de l'ensemble de données AgentTraj

De plus, en implémentant le clonage comportemental sur le plus grand ensemble de données AgentTraj-L, l'agent a obtenu des améliorations significatives des performances.

La méthode AgentEvol proposée dans cet article, bien que dans la phase initiale Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

ne soit basée que sur des données expertes limitées

étapes d'exploration et d'apprentissage alternées
, l'agent est capable de prendre des décisions correctes sur des ensembles d'exploration invisibles. prendre des décisions et réaliser son auto-évolution. Sur plusieurs tâches d'agent, la méthode AgentEvol surpasse

Cette découverte révèle le potentiel des agents à s'adapter et à résoudre des tâches plus complexes, fournissant une base solide pour le développement d'agents polyvalents plus avancés.

Figure 7 : Comparaison des performances de divers modèles et agents dans un environnement multitâche Une série d'ablations déployées sous quatre angles Expérience : (1) Stratégie de fusion de données (2) Nombre d'itérations d'évolution (3) Plage d'exploration ; d'échantillonnage.

Des expériences ont montré que la fusion de la trajectoire actuellement générée par l'agent avec l'ensemble initial de trajectoires expertes peut conduire à des améliorations de performances plus stables. En conséquence, l’utilisation de la trajectoire d’exploration de l’itération précédente peut entraîner un surajustement et des fluctuations des performances.

des trajectoires diverses
pour promouvoir l'apprentissage intelligent des agents.

Limiter la plage d'exploration de l'agent aux

, c'est-à-dire explorer un

, peut limiter l'amélioration supplémentaire des performances d'AgentEvol.目 Figure 9 : Les expériences d'ablation du nombre d'échantillons et de la portée de l'exploration

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

^{De plus, les chercheurs ont également expérimenté sur différents modèles de base. Les résultats montrent que la méthode AgentEvol fonctionne bien sur des modèles de différentes tailles.}

L'expérience utilise la méthode Direct Preference Optimization DPO (Direct Preference Optimization), qui est entraînée sur la base de la trajectoire « succès-échec » au cours du processus d'exploration. Les résultats montrent que l’agent peut apprendre de l’expérience d’erreur dans des scénarios multitâches, mais que ses performances globales restent inférieures à celles de la méthode AgentEvol.

Ouvrez tout le processus d« auto-évolution » des agents intelligents ! Fudan lance AgentGym, une plateforme corporelle intelligente à usage général

Créé, il s'agit du premier projet de développement du langage naturel dans mon pays. L'un des laboratoires de recherche sur le traitement et la recherche d'informations. Avec le soutien de la Fondation nationale des sciences naturelles de Chine, du programme national de R&D 863/973/Key et des fonds des ministères et commissions provinciaux, un grand nombre de revues et d'articles de conférence internationaux de haut niveau ont été publiés. Sous la direction du professeur Huang Xuanjing, leader universitaire, le laboratoire a mené des recherches systématiques et approfondies sur les frontières des grands modèles dans des aspects tels que les grands modèles de langage, les grands modèles multimodaux, l'alignement des grands modèles et les agents intelligents, ce qui a abouti à MOSS. , Moosi, etc. Une série de travaux avec un grand impact académique et des relations de coopération étroites avec les principales entreprises scientifiques et technologiques nationales et étrangères. Le Laboratoire de vision et d'apprentissage de l'Université de Fudan a été fondé par le professeur Jiang Yugang. Il compte actuellement 7 enseignants, plus de 80 étudiants en maîtrise et doctorat et plus de 30 étudiants diplômés.

Le laboratoire est principalement engagé dans la recherche sur la théorie et l'application de la vision par ordinateur et de l'intelligence artificielle multimodale.
Vise à développer des algorithmes d'IA précis, rapides, évolutifs et fiables afin que les machines puissent apprendre, percevoir et raisonner comme les humains. . Le laboratoire a entrepris d'importants projets de recherche scientifique nationaux et locaux tels que le projet majeur Innovation scientifique et technologique 2030 - « Intelligence artificielle de nouvelle génération », le Fonds clé de la Fondation nationale des sciences naturelles de Chine, le projet de plan national de R&D clé, le Shanghai Science and Plan d'action pour l'innovation technologique, etc., ainsi que Huawei, Tencent, Les besoins de recherche technique d'entreprises telles que Baidu.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构封装接口并发 github 算法人工智能 http https gpt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Le modèle 70B génère 1 000 jetons en quelques secondes, la réécriture du code dépasse GPT-4o, de l'équipe Cursor, un artefact de code investi par OpenAIArticle suivant：Le modèle 70B génère 1 000 jetons en quelques secondes, la réécriture du code dépasse GPT-4o, de l'équipe Cursor, un artefact de code investi par OpenAI

Articles Liés

Voir plus