Heim > Artikel > Technologie-Peripheriegeräte > MetaGPT zielt auf die intelligente Gesellschaft ab und arbeitet mit dem Team von Jürgen Schmidhuber zusammen
In den letzten Monaten war das Beispiel des Agents-Softwareunternehmens MetaGPT [1] beeindruckend. Es gewann schnell 30.000 Sterne auf GitHub und erhielt Dutzende von professionellen Medien und großen V-Berichten auf der ganzen Welt. Aber Agentensoftwareunternehmen sind nur ein Mikrokosmos der Agentengesellschaft. In einer intelligenten Gesellschaft gibt es möglicherweise Softwareunternehmen, E-Commerce-Unternehmen und Spieleunternehmen sowie eine große Anzahl unabhängiger Agenten, die für Produktivität sorgen. Auch Jürgen Schmidhuber, der Vater der modernen künstlichen Intelligenz, erkennt das Konzept einer intelligenten Gesellschaft stark an. Er und sein Team haben bedeutende Beiträge zu MetaGPT geleistet und sind in der Liste der MetaGPT-Autoren aufgeführt.
Bereits 1986 leitete Marvin Minsky mit seinem Werk „Society of Mind (SOM)“ [2] eine ideologische Revolution im Bereich der künstlichen Intelligenz ein. Er schlug eine sehr originelle Theorie vor: Der Geist muss nicht aus einzelnen Teilen mit Intelligenz bestehen, sondern ist vielmehr ein komplexes System, das aus dem Zusammenspiel einer Reihe einfacher Teile zusammengesetzt ist. Aus dieser Anordnung ist das entstanden, was wir wissen. Intelligenz und Bewusstsein. Dieses Konzept hatte einen unermesslichen und weitreichenden Einfluss auf die Konstruktion autonomer Agenten und deren anschließende Entwicklung.
Mit dem Sprung nach vorn in der Technologie der künstlichen Intelligenz bis 2023 können wir uns nun vorstellen, wie sie miteinander interagieren und welches Maß an kollektiver Intelligenz sie produzieren werden, wenn jede kleine Komponente selbst über einen bestimmten Grad an Intelligenz verfügt. Zu den Forschungsarbeiten zur Natural Language Agent Society (NLSOM, Language Agent Society) im ersten Halbjahr 2023 [3] gehören namhafte Forschungseinrichtungen wie die King Abdullah University of Science and Technology, das Swiss Artificial Intelligence Laboratory, die Oxford University und Wissenschaftler der ETH Zürich erforschten gemeinsam die Möglichkeit intelligenter Agentengemeinschaften.
Sie schlugen vor, eine sprachgesteuerte Gemeinschaft von Agenten aufzubauen, die gemeinsam Aufgaben erledigen können, die ein einzelner Agent nicht oder nur schwer selbstständig erledigen kann. Die Studie schlägt eine Reihe experimenteller Ideen vor, die mehr als nur Konzeptnachweise sind. Sie werden als Vorläufer einer Gesellschaft mit Billionen intelligenter Agenten angesehen, zu denen möglicherweise auch Menschen gehören.
https://arxiv.org/pdf/2305.17066.pdf
Auf dem CogX Festival 2023 zeigte Jürgen dem Publikum seine tiefen Einblicke in Large Language Models (LLMs). Bei der Erörterung von Themen im Zusammenhang mit Agenten erwähnte er verschiedene Möglichkeiten zum Aufbau sich selbst verbessernder Systeme, darunter universelle Turingmaschinen [4] und Gödel-Maschinen [5]. Er wies darauf hin, dass das aktuelle große Sprachmodell uns eine neue Denkweise bietet – indem es eine universelle symbolische Sprache (wie natürliche Sprache oder Programmiercode) als Schnittstelle zur Verbindung verschiedener Modelle verwendet. Diese Modelle können mit anderen Sprachmodellen kommunizieren, um ein NLSOM-Paradigma (Natural Language Society of Mind) aufzubauen.
Professor Jürgen Schmidhuber ist wissenschaftlicher Leiter des Swiss Artificial Intelligence Laboratory (IDSIA) und Direktor des Center for Artificial Intelligence an der King Abdullah University of Science and Technology (AI Initiative, KAUST). Seine Arbeit hat tiefgreifende Auswirkungen auf wichtige Richtungen der künstlichen Intelligenz wie Verstärkungslernen (Reinforcement Learning), Meta-Lernen (Meta Learning) und neuronale Netze (Neural Network).
Bislang hat Professor Schmidhuber 210.000 Google Scholar-Zitate verzeichnet, darunter 90.000 Zitate für die Arbeit zum Long Short-Term Memory (LSTM) als Miterfinder. Im Alter von 15 Jahren hoffte er, eine intelligentere und sich selbst verbessernde künstliche Intelligenz zu entwickeln, um in den Ruhestand gehen zu können. Zwei der vier Gründer von DeepMind sowie ihr erster Doktorand im Bereich KI kamen aus dem Labor von Jürgen Schmidhuber.
In der Gesellschaft, die Jürgen sich vorstellt, ist die gesamte Kommunikation transparent und leicht interpretierbar. Er erwähnte ein Konzept namens „Mindstorm“, das heißt, wenn ein Problem vorliegt, kann diese Geistesgesellschaft in natürlicher Sprache zusammenarbeiten, um das Problem zu lösen.
In diesem Prozess kann jedes Mitglied der Gesellschaft unterschiedliche Ideen und Perspektiven haben und diese unterschiedlichen Ideen sammeln und integrieren, um kollektive Entscheidungen zu treffen.
Diese Methode eignet sich besonders zur Lösung von Problemen, die von einem einzelnen Agenten nicht effektiv gelöst werden können. Jürgen erklärte weiter, dass solche Probleme programmtechnischer Natur sein können, beispielsweise die Verwendung der Python-Sprache zur Lösung eines bestimmten Programmierproblems. Durch diese Synergie wird die kollektive Intelligenz der Gesellschaft intelligenter Agenten in der Lage sein, Lösungen zu erreichen, die über die individuellen Fähigkeiten hinausgehen.
Diese Iteration des MetaGPT-Projekts erhielt direkte Anleitung von Jürgen, und sein Team leistete auch viel Unterstützung beim Codieren, Schreiben und Engineering.
Als Nächstes analysiert dieser Artikel den aktualisierten Inhalt des MetaGPT-Papiers im Detail, damit die Leser die Details besser verstehen können. 1. Aktualisierung des Papiers und des Rahmens unter SOPs.
Aktualisierter Abschnitt 3.2 des Papiers: Einführung des Kommunikationsmechanismus im MetaGPT-Framework, einschließlich strukturiertem Kommunikationsschnittstellendesign und Publish-Subscribe-Mechanismus. Aktualisierung in Abschnitt 3.3 des Dokuments: Es wird ein ausführbarer Feedback-Mechanismus eingeführt, bei dem es sich um einen Mechanismus zur kontinuierlichen Iteration und Selbstkorrektur während der Codeausführung handelt.
Abb.2. Beispiel eines Kommunikationsprotokolls (links) und Beispiel einer iterativen Programmierung mit spontan ausführbarem Feedback (rechts). Links: Agenten verwenden einen gemeinsamen Nachrichtenpool, um strukturierte Nachrichten zu veröffentlichen. Sie können je nach Konfiguration auch relevante Nachrichten abonnieren. Rechtes Bild: Nach der Generierung des ersten Codes kann der Engineer-Agent den Code ausführen und prüfen, ob während des Betriebs Fehler gemeldet werden. Wenn ein Fehler auftritt, überprüft der Agent die Ausführungsergebnisse und vergleicht sie mit PRD, Systemdesign und Codedateien, um den Code neu zu schreiben und zu optimieren. 1.1. AgentenkommunikationsprotokollDerzeit erfolgt die Zusammenarbeit mehrerer Agenten größtenteils durch Gespräche auf Basis natürlicher Sprache, aber dies ist nicht der optimale Weg, um bestimmte Aufgaben zu lösen.
Die Ausgabe in natürlicher Sprache ohne Einschränkungen und spezifische Anforderungen kann zu einer Verzerrung des Informationsgehalts oder einer Verschiebung des semantischen Fokus führen.
Strukturierte Kommunikationsinhalte und Schnittstellenformen helfen den Agenten daher dabei, Aufgabenanforderungen schnell und genau zu verstehen, und tragen außerdem dazu bei, die Speicherung von Informationsinhalten zu maximieren. Unter Bezugnahme auf die Rollenanforderungen für verschiedene Positionen in menschlichen SOPs legen wir Ausgabespezifikationen für jede Rolle fest, die mit menschlichen Experten in der entsprechenden Position übereinstimmen und vom Agenten verlangen, die ursprünglichen Informationen in natürlicher Sprache in einen strukturierteren Ausdruck umzuwandeln (wie in gezeigt). die Abbildung unten). Wie Datenstruktur, API-Design und Sequenzdiagramm.
Abb.3 Schematische Darstellung des MetaGPT-Softwareentwicklungsprozesses, die zeigt, dass strukturierte SOPs bessere Ergebnisse bringen können. Eine ausführlichere Demonstration finden Sie in Anhang B. In nachfolgenden Experimenten verglichen wir MetaGPT und ChatDev (unter Verwendung eines Chat-Formular-Kommunikations- und Kollaborationsmechanismus), um diese komplexe Aufgabe der Softwareentwicklung tatsächlich zu lösen. Die Ergebnisse zeigen, dass strukturierte Kommunikation zu Schnittstellendesign führen kann erhebliche Auswirkungen auf die intelligente Agentenzusammenarbeit. Publish-Subscribe-MechanismusIm Kommunikationsprozess von Multi-Agenten erhöht die ausschließliche Verwendung der 1v1-Einzelpunkt-Kommunikationsmethode nicht nur die Komplexität der Kommunikationstopologie, führt zu einer geringen Effizienz der Zusammenarbeit, sondern steigert auch die Entwicklung erheblich Kosten. Daher haben wir innerhalb des Frameworks über den Messaging-Mechanismus [publish-subscribe] einen gemeinsamen Nachrichtenpool und ein interessenbasiertes Abonnement implementiert.
Konkret stellt die Umgebung einen gemeinsamen Nachrichtenpool bereit, aus dem Agenten Informationen direkt abrufen können, ohne andere Agenten einzeln zu befragen. Gleichzeitig kann der Agent Nachrichten basierend auf seinen eigenen Interessen/betroffenen Verhaltensweisen filtern und auswählen und so die Nachrichten-/Speicherüberlastung reduzieren. Wie in Abbildung 3 dargestellt, achtet der Architekt hauptsächlich auf die PRD-Dokumentausgabe des Produktmanagers, schenkt dem Dokument des Testingenieurs jedoch weniger Aufmerksamkeit.
1.2, Ausführbares iteratives Feedback-Design
Debugging und Ausführungsfeedback spielen eine wichtige Rolle bei täglichen Programmieraufgaben. Bestehende Methoden verfügen jedoch häufig nicht über Selbstkorrekturmechanismen und führen die Machbarkeitsbewertung des Codes nur durch Codeüberprüfung und Überprüfungsmechanismen durch. Um das Halluzinationsproblem von LLM bei der Codegenerierung weiter zu reduzieren, führen wir einen ausführbaren Feedback-Mechanismus ein, um den Code iterativ zu verbessern. Durch das automatische Feedback zu den Testergebnissen der Codeausführung werden eine Bewertung und Beurteilung der Code-Machbarkeit durchgeführt und LLM zur Durchführung von Selbstiteration und -optimierung gefördert. Wie in Abbildung 2 dargestellt, können Ingenieure den Code basierend auf den Ergebnissen der Codeausführung weiter aktualisieren und iterativ testen, bis der Test erfolgreich ist oder nach maximal N Wiederholungsversuchen beendet wird.
2. Experiment-Update
Im experimentellen Teil haben wir Experimente hinzugefügt, um die Auswirkungen der Einführung von Multi-Agent-Frameworks in SOPs zu untersuchen, und Experimente, um die Codequalität durch ausführbares iteratives Feedback zu verbessern. Zum Datensatz:
2.1. Ausführbares iteratives Feedback-Design
Abbildung 4 zeigt, dass MetaGPT alle vorherigen Methoden sowohl in HumanEval- als auch in MBPP-Benchmarks übertrifft. Bei MetaGPT (unter Verwendung von GPT-4 als Basismodell) ist sein Pass@1 beim HumanEval-Benchmark im Vergleich zu GPT-4 deutlich verbessert. In diesen beiden öffentlichen Benchmarks wurden 85,9 % und 87,7 % erreicht (unter Berücksichtigung der experimentellen Kosten werden die numerischen Ergebnisse einiger Modelle direkt auf die Ergebnisse von Dong et al. (2023) zurückgegriffen. [6]).
Abbildung 4: Erfolgsquoten bei MBPP und HumanEval mit einem einzigen Versuch
2.2, Software-Entwicklungsaufgabendatensatz und Bewertungsmetriken
Für SoftwareDev priorisieren wir die tatsächliche Verwendbarkeit der generierten Projekte und bestehen Using Ob manuelle Auswertung (A, E) oder statistische Analyse (B, C, D) zur Leistungsbewertung; wir demonstrieren die Fähigkeiten von MetaGPT zur autonomen Softwaregenerierung anhand visueller Beispiele (Papier, Abbildung 5). Weitere Experimente und Analysen finden Sie in Anhang C des Papiers:
(A) Ausführbarkeit: Diese Metrik bewertet den generierten Code von 1 (fehlgeschlagen/nicht funktionsfähig) bis 4 (fehlerfrei). 1 bedeutet nicht funktionsfähig, 2 bedeutet funktionsfähig, aber nicht perfekt, 3 bedeutet nahezu perfekt und 4 bedeutet keine Mängel.
(B) Kosten: Die Kostenbewertung umfasst hier (1) Projektlaufzeit, (2) Token-Verbrauch und (3) tatsächliche Ausgaben.
(C) Codestatistik: Beinhaltet (1) die Anzahl der Codedateien, (2) die durchschnittliche Anzahl der Codezeilen pro Datei und (3) die Gesamtzahl der Codezeilen.
(D) Produktionseffizienz: Die grundlegende Definition ist die Token-Nutzung geteilt durch die Anzahl der Codezeilen, d. h. der von jeder Codezeile verbrauchte Token. Je kleiner der Wert, desto höher die Codeproduktionseffizienz.
(E) Manuelle Revisionskosten: Quantifiziert in der Anzahl der Revisionsrunden, die erforderlich sind, um sicherzustellen, dass der Code reibungslos läuft, was die Häufigkeit manueller Eingriffe darstellt, wie z. B. Debuggen oder Importieren von Abhängigkeiten und anderen Revisionen. 2.3, SOPs vs. ChatChain Quellenarbeit, als Experiment Vergleichsobjekt. ChatDev ist ein Framework für die Organisation und Zusammenarbeit von Agenten, das auf der Rollenaufteilung von ChatChain und dem Wasserfallfluss der Softwareentwicklung basiert. Wir haben 7 Aufgaben von SoftwareDev zum Vergleich ausgewählt und die oben genannten relevanten Indikatoren verglichen, um die Unterschiede zu verdeutlichen.
Wie in Tabelle 1 des Papiers gezeigt, übertrifft MetaGPT ChatDev in fast allen Metriken des anspruchsvollen SoftwareDev-Datensatzes. Zum Beispiel: MetaGPT erzielte in Bezug auf die Durchsetzbarkeit einen Wert von 3,75, was sehr nahe an 4 (perfekt) liegt. Darüber hinaus benötigt es deutlich weniger Zeit (503 Sekunden) als ChatDev.
Es ist auch deutlich besser als ChatDev in Bezug auf Codestatistiken und manuelle Änderungskosten. Obwohl MetaGPT mehr Token erfordert (24.613 oder 31.255 im Vergleich zu 19.292 von ChatDev), sind nur 126,5/124,3 Token erforderlich, um eine Codezeile zu generieren. Im Vergleich dazu verwendet ChatDev 248,9 Token.
Diese Ergebnisse verdeutlichen die Vorteile von SOPs bei der Zusammenarbeit mehrerer Agenten.
3. DanksagungVielen Dank an Sarah Salhi, Geschäftsführerin des KAUST AI Center, Postdoktorandin Wang Yuhui und Doktorandin Wang Wenyi für ihre Vorschläge und Hilfe zu diesem Artikel.
[1] https://arxiv.org/pdf/2308.00352.pdf
[2] https://en.wikipedia.org/wiki/Society_of_Mind
[3] https://arxiv.org/pdf/2305.17066.pdf
[4] https://en.wikipedia.org/ wiki/Universal_Turing_machine
[5] https://en.wikipedia.org/wiki/Gödel_machine
[6] https://arxiv.org/abs/2304.07590
Das obige ist der detaillierte Inhalt vonMetaGPT zielt auf die intelligente Gesellschaft ab und arbeitet mit dem Team von Jürgen Schmidhuber zusammen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!