Maison  >  Article  >  Périphériques technologiques  >  Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique d'agent de bout en bout est open source

Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique d'agent de bout en bout est open source

王林
王林original
2024-07-22 14:25:43319parcourir
Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les principaux auteurs de cet article proviennent de Waveform Intelligence, de l'Université du Zhejiang et de l'Université de Beihang. Dans le cadre du travail commun, Zhou Wangchunshu est le co-fondateur et directeur technique de Waveform Intelligence, Ou Yixin est étudiant en deuxième année de maîtrise à l'Université du Zhejiang et Ding Shengwei est étudiant en quatrième année de premier cycle à l'Université de Beihang. Les auteurs correspondants de l'article sont Zhou Wang Chunshu et Jiang Yuchen. Jiang Yuchen est le co-fondateur et PDG de Waveform Intelligence.

Avec l'itération de diverses API de grands modèles et l'open source de divers frameworks d'agents IA, les agents basés sur de grands modèles ont attiré une attention, une recherche et des applications généralisées dans le monde universitaire et l'industrie.

Bien que les agents basés sur de grands modèles (agents IA) aient obtenu de bons résultats dans de nombreux scénarios et puissent réellement être appliqués dans certains scénarios, les progrès de la recherche et du développement des agents IA sont encore limités à des activités centrées sur les « experts ». », ou paradigme « centré sur l’ingénierie ». En d’autres termes, le processus actuel de création et de réglage des agents repose encore presque entièrement sur la main-d’œuvre et l’expérience d’experts humains (ingénieurs en algorithmes) pour concevoir les invites, les outils et le flux de travail de l’agent. Un tel processus prend du temps et demande beaucoup de travail, et il est destiné à ne pas pouvoir utiliser des données massives pour apprendre et entraîner ces éléments symboliques de l'agent. La plupart des agents s'appuient sur des appels d'API à source fermée et ne peuvent pas optimiser eux-mêmes la grande base de modèles. Même si de grands modèles open source sont utilisés, l'optimisation de la base de modèles elle-même est limitée par les ressources et les ressources dans la plupart des scénarios d'application d'agents d'IA. mis en œuvre dans la pratique pour des raisons telles que la puissance de calcul et la stabilité. Par conséquent, les agents intelligents actuels sont encore au stade de développement de « systèmes experts ».

Comme nous le savons tous, la raison importante pour laquelle les réseaux de neurones sont devenus le paradigme de base de l'apprentissage automatique/de l'intelligence artificielle est précisément parce qu'ils peuvent utiliser efficacement des données massives pour la formation et l'optimisation sans avoir besoin de concevoir manuellement des structures et un apprentissage complexes. algorithmes. Par conséquent, les chercheurs de Waveform Intelligence estiment que la transformation de l’agent IA d’une approche centrée sur les experts à une approche centrée sur les données constituera un développement important pour les agents intelligents basés sur de grands modèles.

Afin d'atteindre cet objectif, l'équipe de recherche de Waveform Intelligence s'appuie sur les méthodes de base de l'apprentissage connexionniste pour former des réseaux de neurones (apprentissage connexionniste), c'est-à-dire la rétropropagation et la descente de gradient, analogise les agents d'IA et les réseaux de neurones, et utilise des fonctions de perte, des gradients et des optimiseurs de modèles de texte et de grands modèles, simule des algorithmes de rétropropagation et de descente de gradient, met en œuvre des algorithmes de formation symbolique de bout en bout pour les agents et crée un ensemble d'algorithmes pour la formation de bout en bout des agents d'IA. . Le framework et le code sont open source sur GitHub.

Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

  • Adresse papier : https://arxiv.org/pdf/2406.18532
  • Référentiel de codes : https://github.com/aiwaves-cn/agents

Spécifiquement dit que l'équipe a d'abord déconstruit le grand agent basé sur un modèle en trois éléments principaux, à savoir les invites, les outils et le pipeline d'agents (workflow). Ensuite, dans le cadre, un système d'agent est considéré comme un réseau neuronal « symbolique », chaque nœud du flux de travail de l'agent est considéré comme une couche du réseau et les invites et outils de chaque nœud sont considérés comme ceci. La couche et le workflow/pipeline de l'agent peuvent être considérés comme le graphe de calcul du réseau. De cette manière, le système d'agents peut être considéré comme un réseau de neurones dont les poids changent de l'espace numérique/tensoriel à l'espace symbolique discret (les textes et les codes sont des représentations symboliques), et la formation de ce type de réseau peut naturellement se référer aux méthodes d'optimisation traditionnelles. des réseaux de neurones, à savoir la rétropropagation et la descente de gradient.

Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

                                                                                                                                                                                       Figure 1 : Diagramme du cadre d'apprentissage symbolique des agents

Pour permettre la rétropropagation descente de gradient pour gérer l'espace de poids symbolique, le cadre d'apprentissage symbolique de l'agent utilise du texte et de grands modèles + mots d'invite L'approche modélise les pertes, fonctions de perte, processus de rétropropagation, gradients et optimiseurs basés sur les gradients. Plus précisément, pendant le processus de propagation vers l'avant, le framework enregistre l'entrée, le poids et la sortie de chaque couche dans le graphique de calcul. Ensuite, grâce à la méthode du grand modèle + mots d'invite, l'entrée, la sortie et la description de la tâche globale de l'échantillon actuel sont combinées dans les mots d'invite, puis le grand modèle de langage produit une évaluation et un résumé de l'achèvement du exemple de tâche actuelle. L'évaluation/résumé obtenu sous forme de texte, tout comme la perte dans les réseaux neuronaux, est utilisé pour mesurer la qualité de l'accomplissement des tâches. L'équipe de recherche appelle cela « la perte de forme textuelle », c'est-à-dire la perte basée sur le langage.

Après cela, la recherche utilise un grand modèle de langage et une ingénierie de mots d'invite soigneusement conçue pour générer une « réflexion » sur le dernier nœud du processus d'agent. Les réflexions portent notamment sur la manière dont la sortie du modèle doit changer pour mieux répondre aux exigences, et sur la manière dont les mots d'invite et les appels d'outils doivent être optimisés pour que la sortie change dans cette direction. Ce contenu est exactement le même que le rôle du gradient dans l'optimisation du réseau neuronal. Ils contiennent tous deux des informations sur la manière dont les paramètres doivent être ajustés pour minimiser la perte de l'ensemble du modèle. C'est pourquoi l'équipe de recherche appelle cette réflexion « gradient textuel ». , dégradé basé sur la langue.

La prochaine chose à faire est d'obtenir le dégradé de chaque couche de l'arrière vers l'avant, ce qui est crucial pour l'optimisation des réseaux de neurones. Inspirés par la rétropropagation de la formule basée sur les règles de chaîne dans les réseaux neuronaux, les chercheurs de Waveform Intelligence ont simulé la règle de chaîne de l'optimisation traditionnelle des réseaux neuronaux avec un ensemble d'invites soigneusement conçues via du texte et de grands modèles. Plus précisément, cet ensemble d'invites permet au grand modèle d'être basé sur les informations de gradient de la couche précédente (c'est-à-dire une réflexion sur les tâches effectuées par la couche précédente) et sur l'entrée, la sortie et les poids de cette couche (ces entrées sont complètement cohérent avec les paramètres de la formule de rétropropagation (correspondant), génère une réflexion sur l'utilisation de l'invite/de l'outil du nœud actuel, c'est-à-dire le dégradé basé sur le langage de la couche actuelle. Ce schéma de rétropropagation basé sur du texte permet à cette recherche d'obtenir le gradient des paramètres de chaque nœud/couche dans un agent contenant plusieurs nœuds et des flux de travail complexes, et peut ainsi optimiser directement chaque invite et outil pour l'ensemble de l'agent. parvenir à une optimisation conjointe de bout en bout.

Enfin, après avoir obtenu le dégradé basé sur le langage de chaque ensemble de paramètres, le framework utilise un optimiseur basé sur un grand modèle, utilisant des invites soigneusement conçues, des mots d'invite et des appels d'outils pour chaque couche, ainsi que des dégradés basés sur du texte. . En entrée, les invites et outils optimisés sont générés pour mettre à jour les paramètres de l'agent.

De plus, le framework prend également en charge l'optimisation de la structure du réseau, c'est-à-dire le flux de travail des agents. Plus précisément, le cadre exprime le flux de travail de l'agent dans un langage de programmation spécifique, de sorte que le « graphe de calcul » du réseau d'agents soit également traité en poids symboliques. Ensuite, grâce à un optimiseur basé sur un grand modèle conçu séparément, le flux de travail de l'agent est mis à jour en utilisant le flux de travail de l'agent actuel et les dégradés sous forme de texte de chaque nœud du flux de travail comme entrée. Cela peut être comparé aux recherches liées à la recherche automatique de structure de réseau dans la formation des réseaux neuronaux.​​​​​​​                                                                                                                                                                                                                                                   Figure 3 Résultats expérimentaux sur la tâche d'évaluation du grand modèle

Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

                                                                                                                                                                                               Figure 4 Résultats expérimentaux de la tâche d'évaluation au niveau de l'agent

Les chercheurs de Waveform Intelligence ont évalué l'algorithme sur une série de tests pour de grands modèles et agents, comme le montrent les figures 3 et 4. Il montre que la symbolique de l'agent L'apprentissage s'est considérablement amélioré sur diverses tâches par rapport à DSpy et aux frameworks d'agents traditionnels sans capacités d'apprentissage, dans certaines tâches, il peut même utiliser GPT-3.5 pour rivaliser avec d'autres frameworks d'agents. Les performances sont similaires avec GPT-4. Cependant, la simple utilisation d'un algorithme d'optimisation automatique des mots d'invite locaux (AutoPE) basé sur un modèle de langage étendu pour les mots d'invite dans chaque nœud de l'agent ne peut pas obtenir de résultats évidents. De plus, comme le montre la figure 5, dans la tâche d'écriture créative, l'algorithme a évolué indépendamment d'un agent initial à nœud unique qui écrit uniquement sur la base d'un seul mot d'invite à un flux de travail qui prend en charge l'écriture + l'édition et le mot d'invite du nœud d'écriture Mis à jour et optimisé. S Figure 5 Cadre d'apprentissage symbolique d'agent Effets d'apprentissage (prenons comme exemple les tâches d'écriture créative)

Un agent capable « d’évoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

L'équipe de recherche en intelligence des formes d'onde a présenté les deux scénarios d'application de l'apprentissage symbolique d'agent. Premièrement, le cadre peut être utilisé par les développeurs ou les chercheurs pour créer et régler des systèmes d'agents. Comme pour la formation des réseaux de neurones, les développeurs et les chercheurs peuvent collecter (ou utiliser la génération automatique fournie dans le framework) un grand nombre d'échantillons pour des tâches spécifiées, puis utiliser le framework pour compléter la formation d'agents « centrés sur les données » sur de grandes quantités de données. Après formation et optimisation, tout comme le déploiement d'agents ordinaires, les agents optimisés sont déployés de manière statique dans l'environnement de production.

De plus, un autre scénario d'application important de ce framework est de prendre en charge des agents qui peuvent évoluer de manière autonome dans l'environnement/l'interaction. Plus précisément, étant donné que le cadre de formation lui-même n'a besoin que d'appeler la capacité de grands modèles sans formation ni déploiement complexes basés sur GPU, un agent peut utiliser le cadre de formation comme un outil qu'il peut appeler en explorant l'environnement ou en interagissant. avec les humains, il collecte en permanence de nouveaux échantillons de formation, appelle régulièrement ou activement des outils algorithmiques pour la formation des agents et met à jour ses propres invites, outils et flux de travail. Waveform Intelligence prend également en charge une telle logique de déploiement dans la base de code open source des agents AIWaves, créant ainsi le premier système d'agents capable de continuer à évoluer et à itérer de manière indépendante après avoir été déployé sur des produits et des environnements de production réels.

Le cadre d'apprentissage symbolique de l'agent traite l'agent IA comme un « réseau neuronal » symbolique connecté par des invites et des outils dans des flux de travail complexes en simulant la rétropropagation et la descente de gradient basées sur le langage naturel, il permet l'agent basé sur un modèle à grande échelle. peut optimiser indépendamment ses propres « paramètres de réseau », c'est-à-dire les invites et les outils, et sa « structure de réseau », c'est-à-dire le flux de travail des agents, obtenant ainsi une intelligence capable d'utiliser efficacement de grandes quantités de données et d'expérience et d'effectuer un « apprentissage centré sur les données ». " Le cadre d'agent permet aux systèmes d'agents intelligents de continuer à évoluer de manière autonome. Actuellement, ce cadre a joué un rôle dans plusieurs produits et applications de Waveform Intelligence, résolvant le problème de l'optimisation et de l'évaluation manuelles difficiles des agents. Afin de promouvoir le développement et la recherche sur le « Data-centric Agent » et le « Agent Learning », l'équipe de recherche de Waveform Intelligence a également open source tous les codes de l'algorithme. Nous attendons avec impatience les milieux académiques et industriels dans le domaine. d'agents intelligents explorant ensemble des algorithmes et des applications plus intéressants.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn