


- Adresse du projet : https://github.com/OpenBMB/ProAgent
- Adresse papier : https://github.com/OpenBMB/ProAgent/blob/main/paper/paper. pdf
Dans la longue histoire du développement technologique humain, l'automatisation a toujours été la principale force motrice, aidant les humains à se libérer d'environnements de travail complexes, dangereux et fastidieux. De l'irrigation par roue hydraulique au début de l'ère agricole aux moteurs à vapeur de l'ère industrielle, les humains ont constamment recherché des technologies d'automatisation plus avancées pour se libérer d'un travail ardu.
Avec l'avènement de l'ère de l'information, les logiciels sont utilisés comme outil de traitement de l'information. , Les fondements du stockage et de la communication sont devenus une partie indissociable de la production et de la vie humaines, ce qui a conduit à la formation de la technologie d'automatisation des processus robotiques (RPA). Il coordonne plusieurs logiciels dans un flux de travail solidifié (Workflow) via des règles compilées manuellement et interagit avec les logiciels pour obtenir une exécution efficace en simulant l'interaction humaine.
Dans ce graphique, nous comparons l'automatisation des processus robotiques (RPA) avec l'automatisation des processus d'agent (APA)
RPA (Robotic Process Automation) utilise des robots logiciels ou « BOT » pour simuler et effectuer des tâches répétitives et régulières. pour libérer des ressources humaines et améliorer l’efficacité du travail. Le champ d’application du RPA est très large. De nombreuses entreprises (notamment les banques, les compagnies d'assurance, les industries manufacturières, de vente au détail et autres) utilisent généralement des robots RPA pour automatiser les tâches routinières et fastidieuses, telles que la saisie, l'extraction et le traitement des données. En automatisant les tâches, la RPA peut réduire considérablement les taux d'erreur et être capable d'effectuer des tâches 24 heures sur 24, 7 jours sur 7, améliorant ainsi la fiabilité et la réactivité de l'entreprise.
Selon des études de marché, le marché de la RPA connaît une croissance rapide et connaît un grand succès. Gartner prévoit que les revenus du marché mondial de la RPA atteindront 3,3 milliards de dollars d'ici 2023, avec un taux de croissance de 17,5 %. Cela montre que les entreprises ont une demande et une reconnaissance très élevées pour la RPA
Cependant, la RPA ne peut remplacer que le travail humain simple et mécanique, et certains processus complexes reposent encore sur du travail manuel :
- L'écriture du flux de travail RPA lui-même nécessite beaucoup de travail. travail Le travail humain coûte plus cher.
- Les tâches complexes sont très flexibles et impliquent généralement des décisions dynamiques, difficiles à concrétiser en règles d'expression.
Figure 2 Comparaison de l'efficacité et de l'intelligence entre la RPA et l'APA
Heureusement, l'émergence récente de la technologie des agents à grand modèle de langage (Large Language Model based Agents, LLM-based Agents) dans le domaine de L'IA peut donner La technologie d'automatisation crée de nouvelles possibilités. Est-il possible d'introduire la flexibilité de la technologie Agent dans le domaine de la RPA pour réduire davantage la participation humaine ?
Les recherches de l’équipe explorent le nouveau paradigme d’automatisation « Agentic Process Automation » (APA) à l’ère des grands agents modèles. Par rapport à la RPA traditionnelle, dans le paradigme APA, l'agent peut compléter de manière autonome la construction du flux de travail en fonction des besoins humains. En même temps, il peut identifier les parties des besoins humains qui nécessitent une prise de décision dynamique, les orchestrer automatiquement dans le flux de travail. et exécuter le flux de travail lorsque le flux de travail est exécuté. Cette partie prend activement en charge l'exécution du flux de travail pour terminer les décisions complexes correspondantes.
Afin d'explorer la possibilité de l'APA, ce travail de recherche a mis en œuvre un agent automatisé ProAgent, qui peut recevoir des instructions humaines et créer des flux de travail en générant du code. DataAgent et ControlAgent sont également introduits dans le flux de travail pour mettre en œuvre un traitement de données et une logique complexes. contrôle. Les recherches de ProAgent démontrent la faisabilité de l'APA à l'ère des agents à grande échelle et révèlent également de nouvelles possibilités pour la technologie d'automatisation à l'ère du LLM.
Introduction à la méthode
Dans RPA, un workflow est une structure graphique composée d'une série d'appels d'outils : les nœuds représentent les appels d'outils atomiques (tels que Gmail, Twitter, Google Sheets) et les bords représentent la séquence logique d'exécution ( rejoindre, brancher, boucle). Un flux de travail contient généralement toutes les connaissances préalables sur une tâche ou un type de tâche, y compris les chemins de résolution de problèmes et la logique de gestion des exceptions. Par conséquent, l'écriture de workflows fixes est souvent très stable, approfondie et efficace
Figure 3 Exemple de langage de description de flux de travail d'agent
Dans ProAgent, puisque LLM lui-même est pré-entraîné aux données de code et a acquis de solides capacités de code, cette étude utilise un langage de description de flux de travail d'agent basé sur du code Description de flux de travail d'agent Langue. Ce langage utilise JSON pour organiser et gérer les données dans le flux de travail, et utilise la syntaxe Python pour implémenter le contrôle logique du flux de travail. Les sauts, boucles, etc. dans le flux de contrôle sont directement représentés via la syntaxe Python, et les outils du flux de travail sont les suivants. L'appel est encapsulé en tant que fonction Python. Ainsi, pour ProAgent, les tâches de création de workflow sont transformées en tâches de génération de code. Lors de la réception d'instructions humaines, ProAgent écrit le langage de description de flux de travail agent correspondant, réalisant ainsi une construction de flux de travail automatisée.
Figure 4 Exemple de langage de description de flux de travail d'agent combinant DataAgent et ControlAgent
Les tâches complexes de la vie réelle impliquent généralement une prise de décision dynamique, des règles de contrôle logiques simples de style Python et une organisation des données de style JSON. la forme est impuissante face à des demandes flexibles, et un agent doit être introduit à ce moment-là. Par conséquent, ce travail de recherche définit plus en détail deux opérations Agent :
1. DataAgent : Pour un besoin de traitement de données complexe, le langage naturel sera utilisé pour décrire les tâches de traitement lorsque le workflow est construit, puis initialisé lors de l'exécution. Un DataAgent qui traitera et terminera de manière autonome la tâche de traitement des données sur la base de la description en langage naturel.
2. ControlAgent : pour les règles de contrôle logiques difficiles à exprimer par des règles, le langage naturel est utilisé pour décrire la logique de contrôle lors de la construction du flux de travail, puis un ControlAgent est initialisé au moment de l'exécution, ce qui est décrit. en fonction du langage naturel, sélectionnez indépendamment les branches qui doivent être exécutées ultérieurement dans le flux de travail.
ProAgent utilise le mode ReACT pour créer un flux de travail étape par étape, qui contient quatre étapes de création de flux de travail :
- Action_Define : décidez quels outils ajouter au flux de travail.
- Action Implémenter : Convertissez les paramètres d'entrée/sortie de l'outil dans une structure JSON et encapsulez l'appel de l'outil dans une fonction Python.
- Workflow Implémentation : définissez une fonction mainWorkflow pour organiser le contrôle logique et le traitement des données de l'ensemble du flux de travail.
- Soumission de la tâche : lorsque ProAgent termine la création du flux de travail, cette opération marque la fin du processus de création.
L'exemple montre la figure 5 du processus de construction du flux de travail ProAgent
De plus, afin d'optimiser l'effet de ProAgent, plusieurs techniques d'optimisation sont introduites :
- 1.Testing- sur -Construction : pendant le processus de construction, ProAgent testera le workflow après l'avoir modifié une fois pour garantir l'exactitude du workflow.
- Appel de fonction : toutes les opérations de construction de flux de travail sont encapsulées dans des fonctions GPT-4, améliorant ainsi le contrôle sur le processus de construction de flux de travail.
- Chaîne de pensée : lorsque ProAgent écrit du code de workflow, il est nécessaire de donner des commentaires et un plan d'écriture pour chaque fonction afin d'améliorer les performances de construction du workflow ProAgent.
Le processus d'exécution du workflow est basé sur l'interpréteur Python. Lorsqu'un workflow est donné, la fonction mainWorkflow correspondante est utilisée comme point d'entrée pour l'exécution, démarrant ainsi l'ensemble du processus d'exécution. Le processus d'exécution suit les règles d'exécution du code Python, c'est-à-dire qu'il est exécuté ligne par ligne dans l'ordre. Une fois la fonction mainWorkflow renvoyée, l'exécution du workflow est terminée avec succès
Vérification de faisabilité
Afin de vérifier la faisabilité de l'automatisation des processus agentiques, cette étude a utilisé OpenAI GPT-4 comme modèle de base et une plate-forme RPA open source n8n comme support pour implémenter le ProAgent mentionné ci-dessus. Dans le même temps, nous avons conçu une tâche qui nécessite à la fois flexibilité et efficacité : il s'agit d'un scénario commercial typique, qui nécessite d'extraire les données de bénéfices de divers secteurs d'activité à partir de Google Sheets et de déterminer les actions ultérieures selon que l'entreprise est 2B ou 2C. Une fois que le secteur d’activité est déterminé comme étant 2C, un message est envoyé au canal Slack. Pour les métiers de 2B, un email est envoyé au responsable concerné, qui comprend une évaluation du métier et un bref aperçu de la rentabilité.
Figure 6 Affichage des instructions de tâche
Le contenu qui doit être réécrit est le suivant : Pour cette tâche, tout d'abord, il s'agit d'une tâche répétitive. Pour plusieurs lignes de produits, le même flux de traitement doit être. adopté. Deuxièmement, il est très difficile de distinguer si un secteur d'activité est 2C ou 2B, et cela nécessite une prise de décision dynamique de la part de l'agent pour déterminer le flux de travail ultérieur. Enfin, la rédaction de l'email d'évaluation du métier demande une certaine intelligence, l'intervention de l'Agent est donc nécessaire
Dans la génération ProAgent, pour cette tâche, un workflow contenant quatre opérations atomiques, un DataAgent et un ControlAgent a été écrit. Le processus global est représenté grossièrement dans la figure ci-dessous :
Figure 7 Affichage du processus de construction du workflow ProAgent
On peut voir que ProAgent termine automatiquement le processus de construction du workflow en écrivant son propre code, sans impliquer de travail manuel. intervention. Lorsqu'il est nécessaire de déterminer si le secteur d'activité est 2B ou 2C, ProAgent introduit ControlAgent pour effectuer le jugement. L'invite de ControlAgent est définie sur « Décider si le secteur d'activité est toC ou toB ». Lorsque le secteur d'activité est 2B, ProAgent introduit également un DataAgent, dont la tâche est de "Rédiger un email du secteur d'activité de profit, accompagné de votre suggestion", utilisant ainsi l'intelligence de l'agent pour écrire en fonction de la situation réelle de différents métiers du courrier.
Une fois le flux de travail écrit et solidifié, le flux de travail se branche automatiquement vers différentes logiques en fonction de différentes données pour un traitement efficace des données.
Figure 8 Affichage du processus d'exécution du flux de travail ProAgent
Lors du traitement des données du secteur d'activité 2C, ControlAgent peut déterminer le type du secteur d'activité actuel en fonction de la description du secteur d'activité et choisir d'utiliser l'outil Slack pour communication. Lors du traitement des données du secteur d'activité 2B, DataAgent peut rédiger un e-mail et l'envoyer à la boîte aux lettres du responsable correspondant
Résumé
Cette recherche propose un nouveau paradigme d'automatisation - l'automatisation des processus agentiques, adapté à l'ère du modèle à grande échelle. Par rapport à la technologie traditionnelle d'automatisation des processus robotiques, Agentic Process Automation peut automatiser la construction de flux de travail et réaliser l'automatisation des décisions dynamiques pendant l'exécution du flux de travail. La recherche a également permis de développer ProAgent et de démontrer expérimentalement la faisabilité et le potentiel des agents à grande échelle en matière d'automatisation. Je crois qu'à l'avenir, la technologie des agents à grand modèle aidera les humains à atteindre un niveau d'automatisation plus élevé et à se libérer du travail pénible
Recherches connexes menées par l'équipe
Actuellement, l'équipe de recherche a mené de nombreuses études dans le domaine direction d'agents de grands modèles. Comprend :
- XAgent : un cadre d'application d'agent de modèle super puissant qui peut démonter lui-même des tâches complexes et les exécuter efficacement.
- Adresse du projet : https://github.com/OpenBMB/XAgent
- ChatDev : un framework de développement collaboratif multi-agent qui permet à plusieurs agents ayant des rôles différents de collaborer et de développer automatiquement des applications logicielles.
- Adresse du projet : https://github.com/OpenBMB/ChatDev
- AgentVerse : Une grande plate-forme générale basée sur des modèles pour les agents, recrutant une variété d'experts en agents pour aider conjointement les utilisateurs à résoudre des tâches complexes.
- Adresse du projet : https://github.com/OpenBMB/AgentVerse
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

Dreamweaver Mac
Outils de développement Web visuel

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.