Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail zur Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Die Fähigkeit zur Selbstentwicklung der allgemeinen Intelligenz der KI ist nicht unerreichbar. LLM-basierter Agent benötigt nicht mehr die Hilfe menschlicher Vorgesetzter und beginnt mit der „Selbstentwicklung“! Nach dem Erlernen der Expertenbahn hat sich dieser Agent grundlegende allgemeine Fähigkeiten angeeignet, kann in einer größeren und realistischeren unbekannten Umgebung und bei unbekannten Aufgaben erforschen und lernen und sich unter externem Feedback kontinuierlich verbessern. Kürzlich hat die vom Language and Vision Team der Fudan-Universität ins Leben gerufene AgentGym-Plattform den gesamten Prozess der „Datenerfassung, Trainingsfeinabstimmung, Selbstentwicklung und Fähigkeitsbewertung“ für ein großes Sprachmodell geöffnet Agenten. Basierend auf dem von dieser Plattform vorgeschlagenen AgentEvol-Algorithmus wurde zum ersten Mal die „Selbstentwicklungsfähigkeit“ eines Generalagenten untersucht und er schnitt bei einer Reihe von Agentenaufgaben außergewöhnlich gut ab, vergleichbar mit SOTA-Modellen wie GPT-4 und Claude. Papierlink: https://arxiv.org/abs/2406.04151AgentGym Code-Repository: https://github.com/WooooDyy/AgentGym.
Forschungshintergrund
Die Entwicklung eines Allzweckagenten mit mehreren Aufgaben, der komplexe Aufgaben lösen und sich an diese anpassen kann, ist seit langem ein wichtiges Ziel der Community für künstliche Intelligenz.
Ähnlich wie beim menschlichen Lernprozess beginnen Allzweckagenten zunächst mit dem Erlernen der grundlegendsten Kenntnisse und Fähigkeiten durch Nachahmung
Mit der Beherrschung grundlegender Fähigkeiten erwarten wir nicht nur, dass der Agent durch die Interaktion mit verschiedenen Umgebungen kontinuierlich lernen und sich an viele bisher ungesehene Aufgaben anpassen kann, sondern auch
aus eigener Erfahrung und externem Feedback lernen kann. Rich Weisheit, ein gewisses Maß an Generalisierungsfähigkeit entwickeln (Abbildung 1). Abbildung 1: Schematische Darstellung eines einfachen Allzweckagenten, der „Selbstentwicklung“ realisiert. Der Agent führt zunächst das Verhaltensklonen unter menschlicher Aufsicht durch und erforscht und lernt dann in verschiedenen externen Umgebungen und Aufgaben, um eine Selbstentwicklung zu erreichen. Mit seinen hervorragenden allgemeinen Fähigkeiten gelten große Sprachmodelle als eine der wichtigen Grundlagen für den Aufbau solch intelligenter Agenten. Aktuelle Forschungsbereiche werden in zwei Hauptrichtungen untersucht, um die Weiterentwicklung der Agententechnologie voranzutreiben.
- Die Methode des Verhaltensklonens, die auf menschlicher Aufsicht beruht, erfordert, dass der Agent die von Experten bereitgestellten Flugbahndaten nach und nach nachahmt. Obwohl diese Methode effektiv ist, lässt sie sich aufgrund der begrenzten Anmerkungsressourcen nur schwer erweitern. Die Erkundung der Umgebung ist ebenfalls relativ begrenzt und es kann leicht zu Leistungs- oder Generalisierungsengpässen kommen.
Eine sich selbst verbessernde Methode, die es Agenten ermöglicht, ihre Fähigkeiten basierend auf Umgebungsfeedback kontinuierlich zu verbessern, wodurch die Abhängigkeit von menschlicher Aufsicht verringert und gleichzeitig die Tiefe der Erkundung der Umgebung bereichert wird. Allerdings werden sie in der Regel in einer isolierten Umgebung für eine bestimmte Aufgabe geschult, was zu einer Gruppe von Expertenagenten führt, die nicht effektiv verallgemeinern können.
Angesichts der oben genannten Herausforderungen untersucht der Autor zum ersten Mal das Potenzial eines Allzweckagenten mit grundlegenden Fähigkeiten zur Selbstentwicklung in einer Vielzahl von Umgebungen und Aufgaben.
Um dieses Forschungsziel zu erreichen, identifizierte der Autor „drei Schlüsselsäulen“, die die Selbstentwicklung intelligenter Agenten fördern. Diese Säulen sind die Kernelemente der Forschung. Verschiedene Umgebungen und Aufgaben ermöglichen es Agenten, dynamisch und umfassend zu interagieren und zu trainieren, anstatt auf eine isolierte Umgebung beschränkt zu sein.
Ein entsprechend großer Flugbahndatensatz hilft dem Agenten, sich mit grundlegenden Fähigkeiten zur Befehlsverfolgung und grundlegenden Aufgabenkenntnissen auszustatten. Ein effektiver und skalierbarer Evolutionsalgorithmus, der die Generalisierungsfähigkeit von Agenten in Umgebungen mit unterschiedlichen Schwierigkeiten stimuliert.
-
Abbildung 2: Schematische Darstellung der AgentGym-Plattform. Die Plattform deckt insgesamt 14 Umgebungen in verschiedenen Kategorien ab, die jeweils als HTTP-Dienst bereitgestellt werden. Der Client stellt dem Agenten eine gekapselte einheitliche Schnittstelle zur Verfügung, um die Interaktion mit der Umgebung zu erleichtern. Mithilfe der AgentEvol-Methode untersuchen die Autoren die Selbstentwicklung von Agenten in verschiedenen Umgebungen und Aufgaben. Darüber hinaus stellt die Plattform das Testset AgentEval zur Verfügung, um eine umfassende Fähigkeitsbewertung des Agenten durchzuführen. Die Forschungsarbeit des Autors dreht sich um diese drei Säulen und spiegelt sich in folgenden Aspekten wider:
- „AgentGym“, eine Anwendung, die 14 spezifische Umgebungen und 89 spezifische Aufgabentypen enthält Die interaktive Plattform (Abbildung 2) bietet Unterstützung für die Schulung großer Sprachmodellagenten. Die Plattform basiert auf HTTP-Diensten und bietet eine einheitliche API-Schnittstelle für verschiedene Umgebungen, die Flugbahn-Sampling, Mehrrunden-Interaktion, Online-Bewertung und Echtzeit-Feedback unterstützt.
- „AgentEval“, ein anspruchsvoller Benchmark für Agententests. „AgentTraj“ und „AgentTraj-L“ sind Experten-Trajektoriendatensätze, die durch Befehlsverbesserung und Crowdsourcing/SOTA-Modellannotation erstellt wurden. Nach der Formatvereinheitlichung und Datenfilterung hilft es dem Agenten, grundlegende Fähigkeiten zur Lösung komplexer Aufgaben zu erlernen.
- „AgentEvol“, ein neuer Algorithmus, der die Selbstentwicklung von Agenten in verschiedenen Umgebungen stimuliert. Die Motivation dieses Algorithmus besteht darin, vom Agenten zu erwarten, dass er autonome Erkundungen durchführt, wenn er mit bisher ungesehenen Aufgaben und Anweisungen konfrontiert wird, und aus neuen Erfahrungen lernt und optimiert.
Die AgentGym-Plattform ist ein brandneues Framework, das die Erfassung der Flugbahn von Agenten, die Selbstentwicklung und die Fähigkeitsbewertung unterstützt. Sie zeichnet sich durch die Bereitstellung vielfältiger, zeitgleicher und einheitlicher Format-Feedbacks aus. Ziel ist es, der Community für künstliche Intelligenz dabei zu helfen, LLM-basierte Agenten mit allgemeinen Fähigkeiten einfacher zu erkunden. AgentGym – eine integrierte Agentenplattform für interaktives Training und Bewertung AgentGym integriert mehrere Umgebungen, umfangreiche Flugbahndaten und umfassende Benchmark-Tests. Es vereinfacht den Umgebungskonfigurationsprozess durch die einheitliche Umgebungsbetriebsschnittstelle. Im Einzelnen verfügt AgentGym über die folgenden Funktionen: AgentGym enthält 14 Umgebungen und 89 Aufgaben, die Webnavigation, Wortspiele, verkörperte Kontrolle sowie Werkzeugnutzung und Codekategorien abdecken. Unabhängig davon, ob Sie sich der Entwicklung aufgabenspezifischer Agenten oder universell einsetzbarer Agenten widmen, kann das AgentGym-Framework entsprechende Unterstützung bieten. Dabei wird jede Umgebung unabhängig bereitgestellt, was Abhängigkeitskonflikte zwischen verschiedenen Umgebungen vermeidet und die Skalierbarkeit der Plattform gewährleistet. Beispielsweise lässt sich die WebShop-Umgebung, eine interaktive Plattform für Online-Shopping-Aufgaben, einfach mit nur einer Befehlszeile bereitstellen. Die Trajektoriendaten von AgentGym verwenden ein einheitliches ReAct-Format, das Argumentationsschritte und Aktionssequenzen durch „Gedanken-Aktions“-Paare kombiniert. Die obere linke Ecke von Abbildung 2 zeigt ein Beispiel von Flugbahndaten. Die Plattform hat durch umfangreiche Sammlung und Verbesserung von Anweisungen einen Satz von 20509 Anweisungen erstellt und daraus 1160 Anweisungen mit Diversität ausgewählt, um einen Benchmark-Testsatz AgentEval für eine umfassende Bewertung basierend auf LLM-Agenten zu erstellen. Gleichzeitig nutzte der Autor GPT-4-Turbo und Crowdsourcing-Annotation, um Flugbahndaten zu sammeln, und filterte sie streng nach Belohnung oder Korrektheit, um AgentTraj zu erstellen, eine Sammlung von 6130 hochwertigen Flugbahnen. Um das Leistungspotenzial der Methode des Verhaltensklonens zu demonstrieren, erweiterten die Forscher sie weiter und erhielten AgentTraj-L mit 14485 Trajektorien. Modulare Architektur und effiziente Pipeline: Die AgentGym-Plattform ist modular aufgebaut, Entwickler können problemlos Umgebungen hinzufügen oder ändern. Die Umgebung wird auf verschiedenen Servern (EnvServern) bereitgestellt, um eine flexible und effiziente Interaktion über den HTTP-Dienst zu erreichen. Clients (EnvClients) kapseln die für die Interaktion mit der Umgebung erforderlichen Funktionen und stellen entsprechende Betriebsschnittstellen bereit. Die Kernkomponente AgentController fungiert als Vermittler zwischen dem Agenten und der Umgebung und stellt einen Trainer (Trainer) bereit, der die Agentenstrategie optimiert, sowie einen Leistungsbewerter (Evaluator), der mehrere Umgebungen unterstützt. Die einheitliche Bedienoberfläche vereinfacht die Interaktion zwischen dem Agenten und der Umgebung, sodass sich Benutzer auf die Algorithmusoptimierung und die Agentenschulung konzentrieren können. Abbildung 4: Übersicht über die AgentGym-Plattformarchitektur.
Im Vergleich zu anderen Frameworks besteht der Vorteil von AgentGym darin, dass es nicht nur eine breite Palette von Umgebungssammlungen bereitstellt, sondern auch Echtzeit-Umgebungsfeedback an die Agent über eine interaktive Plattform, unterstützt die Schulung und Bewertung intelligenter Agenten. Gleichzeitig unterstützt AgentGym die „umfassende Entwicklung“ des Agenten in mehreren Umgebungen, was die Generalisierungsfähigkeit des Agenten erheblich verbessert und ihm ermöglicht, in verschiedenen Aufgaben und Umgebungen gute Leistungen zu erbringen. Abbildung 5: Vergleich von AgentGym mit anderen Agent-Frameworks. AgentEvol – Allgemeiner Agentenentwicklungsalgorithmus Basierend auf der AgentGym-Suite können Forscher Agenten einfach testen, trainieren und bewerten. Um das „Selbstentwicklungspotenzial“ von Allzweckagenten zu erkunden, schlug das Fudan Language and Vision Team den AgentEvol-Algorithmus vor (Abbildung 6), der Agenten dabei hilft, ihre Fähigkeiten in verschiedenen Umgebungen und Aufgaben zu verbessern. Die Kernidee dieses Algorithmus besteht darin, dem Agenten zu ermöglichen, seine Leistung durch Erkundung und Lernen zu verbessern, insbesondere wenn er mit Aufgaben und Anweisungen konfrontiert wird, die er zuvor noch nicht gesehen hat. ~ Generalbevollmächtigter (Basis-Generalbevollmächtigter), so dass er über grundlegende Anweisungsfähigkeiten und notwendige Vorkenntnisse verfügt. In diesem Prozess ahmt der Agent Schritt für Schritt die Flugbahn des Experten nach, einschließlich Denkprozess (Gedanke) und Aktion (Aktion). Dann interagiert dieser grundlegende Agent der allgemeinen Intelligenz mit verschiedenen Umgebungen und vollendet seine Selbstentwicklung. Es wird mit immer vielfältigeren Anweisungen und Anfragen aus verschiedenen Umgebungen konfrontiert und verbessert nach und nach seine Fähigkeit, verschiedene Aufgaben zu erledigen. Dieser Prozess ist von der RL als Inferenzmethode im maschinellen Lernen inspiriert, die interaktives Verstärkungslernen als probabilistisches Inferenzproblem behandelt (spezifische Ableitung und Erklärung finden Sie im Originaltext). Diese Methode unterscheidet sich von der herkömmlichen Reinforcement-Learning-Methode. Sie ermittelt nicht direkt die Trajektorie, die die erwartete Rendite maximiert, sondern definiert zunächst eine optimale Richtlinienverteilung über die Trajektorie und optimiert diese Verteilung dann durch einen iterativen Prozess. Konkret umfasst der Prozess zwei abwechselnde Schritte: „Explorationsschritt“: In diesem Schritt interagiert der Agent mit der aktuellen Strategie im Rahmen der aktuellen Strategie. Die Umgebung interagiert, generiert neue Trajektorien und Bewertung ihrer Belohnungen, Bildung einer geschätzten optimalen Richtlinienverteilung. Konkret interagiert der Agent mit mehreren Umgebungen und generiert eine Reihe von Verhaltensverläufen. Jede Flugbahn ist das Produkt der Interaktion zwischen dem Agenten und der Umgebung gemäß der aktuellen Strategie, einschließlich des Denkens des Agenten, seines Verhaltens und der Beobachtung der Umgebung. Anschließend gibt die Umgebung jeder Trajektorie ein Belohnungssignal, basierend auf dem Grad der Übereinstimmung zwischen der Trajektorie und dem Aufgabenziel.
「Lernschritt
」: In diesem Schritt aktualisiert der Agent Parameter basierend auf der geschätzten optimalen Strategieverteilung, um sie der optimalen Strategie näher zu bringen. Insbesondere nutzt der Agent die während des Erkundungsschritts gesammelten Flugbahn- und Belohnungsdaten, um sich selbst durch eine Optimierungszielfunktion zu optimieren, die auf der Gewichtung der Flugbahn-Belohnung basiert. Beachten Sie, dass der Autor im Lernschritt zur Reduzierung der Überanpassung immer den „grundlegenden Generalagenten“ optimiert und nicht den in der vorherigen Optimierungsrunde erhaltenen Agenten.
-
Durch abwechselnde Erkundungs- und Lernschritte optimiert der AgentEvol-Algorithmus den Agenten schrittweise, verbessert seine Fähigkeiten in mehreren Umgebungen erheblich und erreicht das Ziel der „Selbstentwicklung“.
-
Experimentelle Einführung
Aufgabenübersicht: Diese Studie führte eine Reihe umgebungsübergreifender Erkundungs- und Evolutionsexperimente des Agenten über das AgentGym-Framework durch. Das Experiment zielt darauf ab, die Fähigkeit grundlegender Agenten zu bewerten, sich selbst zu erkunden und sich in „diversen Umgebungen“ weiterzuentwickeln. Zu diesem Zweck übernimmt der Autor einen breiteren Befehlssatz, um den Erkundungsraum des Agenten zu erweitern. In 11 verschiedenen Umgebungen zeigten Agenten, die mit dem AgentTraj-Datensatz geschult wurden, gute grundlegende Interaktionsfähigkeiten. Darüber hinaus erzielte der Agent durch die Implementierung des Verhaltensklonens im größeren AgentTraj-L-Datensatz erhebliche Leistungsverbesserungen.
Die in diesem Artikel vorgeschlagene AgentEvol-Methode basiert zwar in der Anfangsphase nur auf begrenzten Expertendaten, durch abwechselnde Erkundungs- und Lernschritte ist der Agent jedoch in der Lage, anhand unsichtbarer Erkundungssätze korrekte Entscheidungen zu treffen Entscheidungen treffen und Selbstentwicklung verwirklichen. Bei Aufgaben mit mehreren Agenten übertrifft die AgentEvol-Methode Diese Entdeckung zeigt das Potenzial von Agenten, komplexere Aufgaben anzupassen und zu lösen, und bietet so eine solide Grundlage für die Entwicklung fortschrittlicherer Allzweckagenten. Abbildung 7: Leistungsvergleich verschiedener Modelle und Agenten in einer Multitasking-Umgebung. Eine Reihe von Ablationsversuchen: (1) Datenzusammenführungsstrategie (2) Anzahl der Evolutionsiterationen; (4) Anzahl; der Probenahme. Experimente haben ergeben, dass die Zusammenführung der aktuell vom Agenten generierten Trajektorie mit dem anfänglichen Satz von Expertentrajektorien zu stabileren Leistungsverbesserungen führen kann. Dementsprechend kann die Verwendung des Erkundungsverlaufs der vorherigen Iteration zu Überanpassung und Leistungsschwankungen führen. Wenn die Anzahl der Iterationen M während des Evolutionsprozesses zunimmt, verbessert sich die Leistung, wird sich jedoch schließlich stabilisieren und konvergieren. , generieren verschiedene Trajektorien
, um das Lernen intelligenter Agenten zu fördern.
Die Beschränkung des Erkundungsbereichs des Agenten auf bekannte Befehlssätze, d. h. die Erkundung von begrenztem Raum, kann eine weitere Verbesserung der Leistung von AgentEvol einschränken.目 Abbildung 9: Die Ablationsexperimente der Probenanzahl und des Untersuchungsumfangs Darüber hinaus experimentierten die Forscher auch an verschiedenen Basismodellen. Die Ergebnisse zeigen, dass die AgentEvol-Methode bei Modellen unterschiedlicher Größe eine gute Leistung erbringt. Können die Erfahrungsspuren von Erfolg und Misserfolg beide einen Unterschied machen Das Experiment verwendet die Direct Preference Optimization DPO (Direct Preference Optimization)-Methode, die auf der Grundlage der „Erfolg-Misserfolg“-Trajektorie während des Explorationsprozesses trainiert wird. Die Ergebnisse zeigen, dass der Agent in Multitasking-Szenarien aus Fehlererfahrungen lernen kann, seine Gesamtleistung jedoch immer noch schlechter ist als die AgentEvol-Methode. Es wurde erstellt und ist das früheste Projekt zur Entwicklung natürlicher Sprache in meinem Land. Eines der Labore für Verarbeitungs- und Informationsabrufforschung. Mit Unterstützung der National Natural Science Foundation of China, des National 863/973/Key R&D Program und der Mittel von Provinzministerien und -kommissionen wurde eine große Anzahl hochrangiger internationaler Fachzeitschriften und Konferenzbeiträge veröffentlicht. Unter der Leitung des akademischen Leiters Professor Huang , Moosi usw. Eine Reihe von Arbeiten mit großer akademischer Wirkung und engen Kooperationsbeziehungen mit führenden in- und ausländischen wissenschaftlichen und technologischen Unternehmen. Das Vision and Learning Laboratory der Fudan-Universität wurde von Professor Jiang Yugang gegründet. Es hat derzeit 7 Lehrer, mehr als 80 Master- und Doktoranden sowie mehr als 30 Doktoranden. Das Labor beschäftigt sich hauptsächlich mit der Forschung zur Theorie und Anwendung von Computer Vision und multimodaler künstlicher Intelligenz.
Ziel ist die Entwicklung präziser, schneller, skalierbarer und vertrauenswürdiger KI-Algorithmen, damit Maschinen wie Menschen lernen, wahrnehmen und argumentieren können . Das Labor hat wichtige nationale und lokale wissenschaftliche Forschungsprojekte durchgeführt, wie das Großprojekt Science and Technology Innovation 2030 – „New Generation Artificial Intelligence“, den National Natural Science Foundation of China Key Fund, das National Key R&D Plan Project, das Shanghai Science and Aktionsplan für Technologieinnovation usw. sowie Huawei, Tencent und der technische Forschungsbedarf von Unternehmen wie Baidu.
Das obige ist der detaillierte Inhalt vonEröffnen Sie den gesamten Prozess der „Selbstentwicklung“ intelligenter Agenten! Fudan bringt AgentGym auf den Markt, eine universelle intelligente Körperplattform. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn