Heim >Technologie-Peripheriegeräte >KI >Ein Agent, der sich „unabhängig weiterentwickeln' kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source

Ein Agent, der sich „unabhängig weiterentwickeln' kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source

王林Original: 2024-07-22 14:25:43483Durchsuche

Ein Agent, der sich „unabhängig weiterentwickeln kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Hauptautoren dieses Artikels sind von Waveform Intelligence, der Zhejiang University und der Beihang University. In der gemeinsamen Arbeit ist Zhou Wangchunshu Mitbegründer und CTO von Waveform Intelligence, Ou Yixin ein Masterstudent im zweiten Jahr an der Zhejiang-Universität und Ding Shengwei ein Bachelorstudent im vierten Jahr an der Beihang-Universität. Die entsprechenden Autoren des Artikels sind Zhou Wang Chunshu und Jiang Yuchen, Mitbegründer und CEO von Waveform Intelligence.

Mit der Iteration verschiedener APIs für große Modelle und der Open Source verschiedener AI-Agent-Frameworks haben Agenten, die auf großen Modellen basieren, große Aufmerksamkeit, Forschung und Anwendungen in Wissenschaft und Industrie erlangt.

Obwohl großmodellbasierte Agenten (KI-Agenten) in vielen Szenarien gute Ergebnisse erzielt haben und in einigen Szenarien tatsächlich angewendet werden können, ist der Fortschritt der Forschung und Entwicklung von KI-Agenten immer noch auf „Experten“ beschränkt “ oder „technikzentriertes“ Paradigma. Mit anderen Worten: Der aktuelle Erstellungs- und Optimierungsprozess für Agenten verlässt sich immer noch fast ausschließlich auf die Arbeitskraft und Erfahrung menschlicher Experten (Algorithmeningenieure), um die Eingabeaufforderungen, Tools und Arbeitsabläufe des Agenten zu entwerfen. Ein solcher Prozess ist zeit- und arbeitsintensiv und wird wahrscheinlich nicht in der Lage sein, umfangreiche Daten zum Erlernen und Trainieren dieser symbolischen Elemente des Agenten zu nutzen. Die meisten Agenten sind auf Closed-Source-API-Aufrufe angewiesen und können die große Modellbasis selbst nicht optimieren. Selbst wenn große Open-Source-Modelle verwendet werden, ist die Optimierung der Modellbasis selbst in den meisten Anwendungsszenarien von KI-Agenten nicht möglich aus Gründen wie Rechenleistung und Stabilität in die Praxis umgesetzt werden. Daher befinden sich aktuelle intelligente Agenten noch im Entwicklungsstadium von „Expertensystemen“.

Wie wir alle wissen, liegt der wichtige Grund, warum neuronale Netze zum Grundparadigma des maschinellen Lernens/der künstlichen Intelligenz geworden sind, genau darin, dass sie riesige Datenmengen effizient für Training und Optimierung nutzen können, ohne dass komplexe Strukturen und Lernprozesse manuell entworfen werden müssen Algorithmen. Daher glauben Forscher von Waveform Intelligence, dass die Transformation von KI-Agenten von einer Expertenzentrierung zu einer Datenzentrierung eine wichtige Entwicklung für intelligente Agenten sein wird, die auf großen Modellen basieren.

Um dieses Ziel zu erreichen, greift das Forschungsteam von Waveform Intelligence auf die grundlegenden Methoden des konnektionistischen Lernens zurück, um neuronale Netze zu trainieren (konnektionistisches Lernen), also Backpropagation und Gradient Descent, und analogisiert KI-Agenten und neuronale Netze. und verwendet Text und große Modelle, modelliert Verlustfunktionen, Gradienten und Optimierer, simuliert Backpropagation- und Gradientenabstiegsalgorithmen, implementiert symbolische End-to-End-Trainingsalgorithmen für Agenten und erstellt eine Reihe von Algorithmen für das End-to-End-Training von KI-Agenten . Das Framework und der Code wurden als Open Source auf GitHub bereitgestellt. ?? Gesagt dass das Team zunächst den großen modellbasierten Agenten in drei Hauptelemente zerlegte, nämlich Eingabeaufforderungen, Tools und Agentenpipeline (Workflow). Als nächstes wird im Framework ein Agentensystem als „symbolisches“ neuronales Netzwerk betrachtet, jeder Knoten im Agenten-Workflow wird als eine Schicht im Netzwerk betrachtet und die Eingabeaufforderungen und Tools in jedem Knoten werden als diese betrachtet Die Schicht und der Workflow/die Pipeline des Agenten können als Berechnungsdiagramm des Netzwerks betrachtet werden. Auf diese Weise kann das Agentensystem als neuronales Netzwerk betrachtet werden, dessen Gewichte sich vom numerischen/tensorischen Raum zum diskreten symbolischen Raum ändern (Texte und Codes sind symbolische Darstellungen), und das Training dieser Art von Netzwerk kann natürlich auf traditionelle Optimierungsmethoden zurückgreifen neuronaler Netze, nämlich Backpropagation und Gradient Descent.

Ein Agent, der sich „unabhängig weiterentwickeln kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source

^{Abbildung 1: Diagramm für das symbolische Lerngerüst der Agenten}

, um die traditionelle Backpropagation und den Gradientenabstieg mit dem symbolischen Gewichtsraum zu bewältigen Verlustfunktionen, Backpropagation-Prozesse, Gradienten und Gradienten-basierte Optimierer. Insbesondere speichert das Framework während des Vorwärtsausbreitungsprozesses die Eingabe, das Gewicht und die Ausgabe jeder Schicht im Berechnungsdiagramm. Als nächstes werden durch die Methode „Großes Modell + Eingabeaufforderungswörter“ die Eingabe, Ausgabe und Beschreibung der Gesamtaufgabe der aktuellen Stichprobe in den Eingabeaufforderungswörtern kombiniert, und dann gibt das große Sprachmodell eine Bewertung und Zusammenfassung des Abschlusses aus aktuelle Beispielaufgabe. Die erhaltene Auswertung/Zusammenfassung in Textform dient ebenso wie der Verlust in neuronalen Netzen zur Messung der Qualität der Aufgabenerfüllung. Das Forschungsteam nennt es „Textformverlust“, also sprachbasierten Verlust.

Danach nutzt die Forschung ein großes Sprachmodell und eine sorgfältig konzipierte Prompt-Word-Engineering, um eine „Reflexion“ am letzten Knoten im Agentenprozess zu erzeugen. Zu den Überlegungen gehört, wie sich die Ausgabe des Modells ändern sollte, um den Anforderungen besser gerecht zu werden, und wie Eingabeaufforderungen und Werkzeugaufrufe optimiert werden sollten, damit sich die Ausgabe in diese Richtung ändert. Dieser Inhalt ist genau derselbe wie die Rolle des Gradienten bei der Optimierung neuronaler Netze. Beide enthalten Informationen darüber, wie Parameter angepasst werden sollten, um den Verlust des gesamten Modells zu minimieren , sprachbasierter Gradient.

Als nächstes müssen Sie den Gradienten jeder Schicht von hinten nach vorne ermitteln, was für die Optimierung neuronaler Netze von entscheidender Bedeutung ist. Inspiriert durch die Rückausbreitung der auf Kettenregeln basierenden Formel in neuronalen Netzen simulierten Forscher von Waveform Intelligence die Kettenregel der traditionellen Optimierung neuronaler Netze mit einer Reihe sorgfältig gestalteter Eingabeaufforderungen durch Text und große Modelle. Insbesondere ermöglicht dieser Satz von Eingabeaufforderungen, dass das große Modell auf den Gradienteninformationen der vorherigen Ebene (dh der Reflexion der von der vorherigen Ebene ausgeführten Aufgaben) und den Eingaben, Ausgaben und Gewichten dieser Ebene (diese Eingaben sind) basiert stimmt vollständig mit den Parametern in der Backpropagation-Formel überein (entsprechend) und gibt eine Reflexion über die Eingabeaufforderung/Werkzeugverwendung des aktuellen Knotens aus, dh den sprachbasierten Gradienten der aktuellen Ebene. Dieses textbasierte Backpropagation-Schema ermöglicht es dieser Forschung, den Gradienten der Parameter jedes Knotens/jeder Schicht in einem Agenten zu erhalten, der mehrere Knoten und komplexe Arbeitsabläufe enthält, und kann dadurch die Rolle der Leistung direkt für den gesamten Agenten optimieren eine durchgängige gemeinsame Optimierung zu erreichen.

Nachdem das Framework schließlich den sprachbasierten Gradienten jedes Parametersatzes erhalten hat, verwendet es einen Optimierer, der auf einem großen Modell basiert und sorgfältig gestaltete Eingabeaufforderungen, Eingabeaufforderungswörter und Werkzeugaufrufe für jede Ebene sowie textbasierte Farbverläufe verwendet Als Eingabe werden die optimierten Eingabeaufforderungen und Tools ausgegeben, um die Agentenparameter zu aktualisieren.

Darüber hinaus unterstützt das Framework auch die Optimierung der Netzwerkstruktur, also des Agenten-Workflows. Konkret drückt das Framework den Agenten-Workflow in einer bestimmten Programmiersprache aus, sodass auch der „Berechnungsgraph“ des Agentennetzwerks in symbolische Gewichte verarbeitet wird. Anschließend wird der Arbeitsablauf des Agenten über einen separat entwickelten, auf großen Modellen basierenden Optimierer aktualisiert, wobei der Arbeitsablauf des aktuellen Agenten und die Farbverläufe in Textform jedes Knotens im Arbeitsablauf als Eingabe verwendet werden. Dies kann mit der Forschung im Zusammenhang mit der automatischen Netzwerkstruktursuche beim Training neuronaler Netzwerke verglichen werden. Abbildung 3 Experimentelle Ergebnisse der großen Modellbewertungsaufgabe

Ein Agent, der sich „unabhängig weiterentwickeln kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source

^{Abbildung 4 Experimentelle Ergebnisse der Bewertungsaufgabe auf Agentenebene}

Forscher der Wellenform-Intelligenz bewerteten den Algorithmus auf einer Reihe von Benchmarks für große Modelle und Wirkstoffe, wie in den Abbildungen 3 und 4 gezeigt, dass das Agent symbolisch symbolisch ist Das Lernen hat sich bei verschiedenen Aufgaben im Vergleich zu DSpy und herkömmlichen Agenten-Frameworks ohne Lernfunktionen erheblich verbessert. Bei einigen Aufgaben kann GPT-3.5 sogar mit anderen Agenten-Frameworks konkurrieren. Die einfache Verwendung eines lokalen Optimierungsalgorithmus für Eingabeaufforderungswörter (AutoPE), der auf einem großen Sprachmodell für die Eingabeaufforderungswörter in jedem Knoten im Agenten basiert, kann jedoch keine offensichtlichen Ergebnisse erzielen. Wie in Abbildung 5 dargestellt, hat sich der Algorithmus in der kreativen Schreibaufgabe außerdem unabhängig von einem anfänglichen Einzelknotenagenten, der nur auf der Grundlage eines Eingabeaufforderungsworts schreibt, zu einem Workflow entwickelt, der das Schreiben + Bearbeiten und das Eingabeaufforderungswort des unterstützt Schreibknoten Aktualisiert und optimiert. S Abbildung 5 Agent Symbolic Learning Framework Lerneffekteffekte (am Beispiel kreativer Schreibaufgaben)

^{Das Forschungsteam für Wellenformintelligenz stellte die beiden Anwendungsszenarien des Agent Symbolic Learning vor. Erstens kann das Framework von Entwicklern oder Forschern zum Erstellen und Optimieren von Agentensystemen verwendet werden. Wie beim Training neuronaler Netze können Entwickler und Forscher eine große Anzahl von Beispielen für bestimmte Aufgaben sammeln (oder die im Framework bereitgestellte automatische Generierung verwenden) und dann das Framework verwenden, um das Training „datenzentrierter“ Agenten im Großen und Ganzen abzuschließen Nach der Schulung und Optimierung werden die optimierten Agenten, genau wie bei der Bereitstellung gewöhnlicher Agenten, statisch in der Produktionsumgebung bereitgestellt.}

Darüber hinaus besteht ein weiteres wichtiges Anwendungsszenario dieses Frameworks darin, Agenten zu unterstützen, die sich autonom in der Umgebung/Interaktion weiterentwickeln können. Da das Trainings-Framework selbst nur die Fähigkeiten großer Modelle ohne komplexes GPU-basiertes Training und Bereitstellung aufrufen muss, kann ein Agent das Trainings-Framework als Werkzeug verwenden, das er durch Erkunden der Umgebung oder während der Interaktion aufrufen kann Mit Menschen sammelt es kontinuierlich neue Trainingsbeispiele, ruft regelmäßig oder aktiv Algorithmustools für das Agententraining auf und aktualisiert seine eigenen Eingabeaufforderungen, Tools und Arbeitsabläufe. Waveform Intelligence unterstützt eine solche Bereitstellungslogik auch in der Open-Source-Codebasis von AIWaves Agents und realisiert so das erste Agentensystem, das sich nach der Bereitstellung in tatsächlichen Produkten und Produktionsumgebungen unabhängig weiterentwickeln und iterieren kann.

Das Agent Symbolic Learning-Framework betrachtet AI Agent als symbolisches „neuronales Netzwerk“, das durch Eingabeaufforderungen und Tools in komplexen Arbeitsabläufen verbunden ist. Durch die Simulation von Backpropagation und Gradientenabstieg auf der Grundlage natürlicher Sprache wird eine groß angelegte modellbasierte Entwicklung des Agenten ermöglicht kann seine eigenen „Netzwerkparameter“, also Eingabeaufforderungen und Tools, sowie die „Netzwerkstruktur“, also den Agenten-Workflow, selbstständig optimieren und so eine Intelligenz erreichen, die große Daten- und Erfahrungsmengen effizient nutzen und „datenzentriertes Lernen“ durchführen kann „Das Agenten-Framework ermöglicht intelligente Agentensysteme, die sich autonom weiterentwickeln können. Derzeit spielt dieses Framework in mehreren Produkten und Anwendungen von Waveform Intelligence eine Rolle und löst das Problem der schwierigen manuellen Optimierung und Bewertung von Agenten. Um die Entwicklung und Forschung von „Data-centric Agent“ und „Agent Learning“ voranzutreiben, hat das Forschungsteam von Waveform Intelligence auch alle Codes des Algorithmus als Open Source bereitgestellt. Wir freuen uns auf die akademischen und industriellen Kreise auf diesem Gebiet von intelligenten Agenten, die gemeinsam weitere interessante Algorithmen und Anwendungen erkunden.

Das obige ist der detaillierte Inhalt vonEin Agent, der sich „unabhängig weiterentwickeln' kann? Das erste symbolische Trainingsframework für End-to-End-Agenten ist Open Source. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

github 算法人工智能 https gpt prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Die Roboterversion von „Stanford Town“ ist da, speziell für die verkörperte Intelligenzforschung gebautNächster Artikel：Die Roboterversion von „Stanford Town“ ist da, speziell für die verkörperte Intelligenzforschung gebaut

In Verbindung stehende Artikel

Mehr sehen