Kürzlich hat das Natural Language Processing Team (FudanNLP) der Fudan University einen Übersichtsartikel zu LLM-basierten Agenten veröffentlicht. Der vollständige Text ist 86 Seiten lang und enthält mehr als 600 Referenzen! Ausgehend von der Geschichte der KI-Agenten untersuchten die Autoren umfassend den aktuellen Status intelligenter Agenten auf der Grundlage großer Sprachmodelle, darunter: Hintergrund, Zusammensetzung, Anwendungsszenarien von LLM-basierten Agenten und die viel diskutierte Agentengesellschaft. Gleichzeitig diskutierten die Autoren zukunftsweisende und offene Fragen im Zusammenhang mit Agent, die für zukünftige Entwicklungstrends in verwandten Bereichen von großem Wert sind.
Link zum Papier: https://arxiv.org/pdf/2309.07864.pdfLLM-basierte Agent-Papierliste: https://github.com/WooooDyy/LLM-Agent-Paper- Die Teammitglieder von List
fügen außerdem eine „Ein-Satz-Zusammenfassung“ für jedes relevante Papier hinzu. Willkommen im Star-Lager.
Forschungshintergrund
Seit langem verfolgen Forscher eine allgemeine künstliche Intelligenz
(Artificial General Intelligence, AGI), die dem menschlichen Niveau entspricht oder sogar darüber hinausgeht. Bereits in den 1950er Jahren erweiterte Alan Turing das Konzept der „Intelligenz“ auf künstliche Einheiten und schlug den berühmten Turing-Test vor. Diese Einheiten der künstlichen Intelligenz werden oft als „Agenten“ (Agent*) bezeichnet. Der Begriff „Agent“ stammt aus der Philosophie und beschreibt eine Entität, die über Wünsche, Überzeugungen, Absichten und die Fähigkeit verfügt, Maßnahmen zu ergreifen. Im Bereich der künstlichen Intelligenz hat dieser Begriff eine neue Bedeutung erhalten: Ein intelligentes Wesen mit den Eigenschaften Autonomie, Reaktivität, Positivität und Geselligkeit. * Es besteht kein Konsens über die chinesische Übersetzung des Begriffs „Agent“. Einige Wissenschaftler übersetzen ihn mit „Agent“, „Akteur“, „Agent“ oder „Intelligenter Agent“. an den Agenten.
Seitdem ist das Design von Agenten zu einem Schwerpunkt der Künstliche-Intelligenz-Community geworden. Frühere Arbeiten konzentrierten sich jedoch hauptsächlich auf die Verbesserung spezifischer Fähigkeiten von Agenten, wie etwa symbolisches Denken oder die Beherrschung spezifischer Aufgaben (Schach, Go usw.). Diese Studien konzentrieren sich mehr auf das Design von Algorithmen und Trainingsstrategien und ignorieren dabei die Entwicklung der inhärenten allgemeinen Fähigkeiten des Modells, wie z. B. Wissensgedächtnis, langfristige Planung, effektive Generalisierung und effiziente Interaktion. Es stellt sich heraus, dass die Verbesserung der inhärenten Fähigkeiten des Modells ein Schlüsselfaktor für die Förderung der weiteren Entwicklung intelligenter Agenten ist. Das Aufkommen großer Sprachmodelle (LLMs) gibt Hoffnung für die weitere Entwicklung intelligenter Agenten. Wenn der Entwicklungsweg von NLP zu AGI in fünf Ebenen unterteilt ist: Korpus, Internet, Wahrnehmung, Verkörperung und soziale Attribute, dann haben die aktuellen groß angelegten Sprachmodelle die zweite Ebene erreicht, mit Texteingabe und -ausgabe im Internetmaßstab. Wenn LLM-basierten Agenten auf dieser Grundlage Wahrnehmungsraum und Handlungsraum gegeben werden, erreichen sie die dritte und vierte Ebene. Wenn mehrere Agenten darüber hinaus interagieren und zusammenarbeiten, um komplexere Aufgaben zu lösen oder soziale Verhaltensweisen in der realen Welt widerzuspiegeln, haben sie das Potenzial, die fünfte Ebene zu erreichen – die Agentengesellschaft.
一 Auch die Vorstellung des Autors von einer harmonischen Gesellschaft aus intelligenten Agenten kann daran teilhaben. Die Szene stammt vom Sea Lantern Festival in „Genshin Impact“.
Wie wird ein intelligenter Agent mit dem Segen eines großen Models aussehen? Inspiriert von Darwins „Überleben des Stärkeren“-Gesetzes schlugen die Autoren einen allgemeinen Rahmen für intelligente Agenten vor, der auf großen Modellen basiert. Wenn ein Mensch in der Gesellschaft überleben will, muss er lernen, sich an die Umwelt anzupassen, also muss er über kognitive Fähigkeiten verfügen und in der Lage sein, Veränderungen in der Außenwelt wahrzunehmen und darauf zu reagieren. Ebenso besteht das Gerüst intelligenter Agenten aus drei Teilen:
Kontrollterminal (Gehirn), Wahrnehmungsterminal (Wahrnehmung) und Aktionsterminal (Aktion). Kontrolle - : Normalerweise besteht es aus LLMs und ist der Kern intelligenter Agenten. Es kann nicht nur Gedächtnis und Wissen speichern, sondern auch unverzichtbare Funktionen wie Informationsverarbeitung und Entscheidungsfindung übernehmen. Es kann den Prozess des Denkens und Planens darstellen und unbekannte Aufgaben gut bewältigen, was die Verallgemeinerung und Übertragbarkeit intelligenter Agenten widerspiegelt.
Wahrnehmungsende- : Erweitern Sie den Wahrnehmungsraum intelligenter Agenten vom reinen Text auf multimodale Felder wie Text, Sehen und Hören, sodass der Agent Informationen aus der Umgebung effektiver erhalten und nutzen kann.
Mobile Seite- : Zusätzlich zur regulären Textausgabe erhält der Agent auch die Fähigkeit, Werkzeuge zu verkörpern und zu nutzen, wodurch er sich besser an Umweltveränderungen anpassen, durch Feedback mit der Umgebung interagieren und sogar die Umgebung gestalten kann .
S Der konzeptionelle Rahmen von LLM-BASED AGENT enthält drei Komponenten: das Kontrollterminal, die Wahrnehmung und das Handlungsende.
Die Autoren veranschaulichen den Arbeitsablauf des LLM-basierten Agenten anhand eines Beispiels: Wenn ein Mensch fragt, ob es regnen wird, wandelt das Wahrnehmungsende (Perception) die Anweisungen in eine Darstellung um, die LLMs verstehen können. Dann beginnt das Kontrollterminal (Brain) mit der Überlegung und Handlungsplanung auf Basis des aktuellen Wetters und der Wettervorhersagen im Internet. Schließlich antwortet die Aktion und reicht dem Menschen den Regenschirm. Durch die Wiederholung des oben genannten Prozesses kann der intelligente Agent kontinuierlich Feedback einholen und mit der Umgebung interagieren.
Als Kernkomponente des intelligenten Agenten stellen die Autoren seine Fähigkeiten aus fünf Aspekten vor: Natürliche Sprachinteraktion: Sprache Es ist ein Medium einer Kommunikation, die umfangreiche Informationen enthält. Dank der leistungsstarken natürlichen Spracherzeugungs- und Verständnisfähigkeiten von LLMs können intelligente Agenten über mehrere Runden hinweg über natürliche Sprache mit der Außenwelt interagieren, um ihre Ziele zu erreichen. Konkret kann es in zwei Aspekte unterteilt werden:
Hochwertige Textgenerierung: Eine Vielzahl von Evaluierungsexperimenten zeigt, dass LLMs flüssige, vielfältige, neuartige und kontrollierbare Texte generieren können. Obwohl die Leistungen in einzelnen Sprachen schlecht sind, sind insgesamt gute Mehrsprachkenntnisse vorhanden.
Verstehen der Implikation: Zusätzlich zu den intuitiv ausgedrückten Inhalten kann die Sprache auch Informationen wie die Absichten und Vorlieben des Sprechers vermitteln. Die Implikation ist, dass es den Agenten hilft, effizienter zu kommunizieren und zusammenzuarbeiten, und große Modelle haben bereits das Potenzial in dieser Hinsicht gezeigt.
Wissen:
LLMs, die auf der Grundlage großer Korpusmengen trainiert werden, haben die Fähigkeit, riesige Mengen an Wissen zu speichern. Neben Sprachkenntnissen sind Kenntnisse des gesunden Menschenverstandes und Kenntnisse über berufliche Fähigkeiten wichtige Bestandteile von LLM-basierten Agenten.
Obwohl LLMs selbst immer noch Probleme wie Wissensablauf und Halluzinationen haben, können einige bestehende Forschungsarbeiten durch Methoden wie Wissensbearbeitung oder Aufruf externer Wissensdatenbanken bis zu einem gewissen Grad entlastet werden. Im Rahmen dieses Artikels speichert das Speichermodul (Speicher) die vergangenen Beobachtungs-, Denk- und Handlungssequenzen des Agenten. Durch spezifische Gedächtnismechanismen können Agenten frühere Strategien effektiv reflektieren und anwenden, sodass sie auf frühere Erfahrungen zurückgreifen können, um sich an unbekannte Umgebungen anzupassen.
Es gibt normalerweise drei Methoden, um die Speicherkapazitäten zu verbessern: Erweitern der Längenbeschränkung der Backbone-Architektur: Verbesserung des inhärenten Problems der Sequenzlängenbeschränkung von Transformern.
Zusammenfassen: Das Gedächtnis zusammenfassen, um die Fähigkeit des Agenten zu verbessern, wichtige Details aus dem Gedächtnis zu extrahieren. Komprimierter Speicher (Komprimieren): Durch Komprimieren des Speichers mithilfe von Vektoren oder geeigneten Datenstrukturen kann die Effizienz des Speicherabrufs verbessert werden.
-
Darüber hinaus ist auch die Speicherabrufmethode sehr wichtig. Nur durch das Abrufen der entsprechenden Inhalte kann der Agent auf die relevantesten und genauesten Informationen zugreifen.
Begründungsfähigkeit ist für intelligente Agenten von entscheidender Bedeutung, um komplexe Aufgaben wie Entscheidungsfindung und Analyse auszuführen. Spezifisch für LLMs handelt es sich um eine Reihe von Aufforderungsmethoden, die durch Chain-of-Thought (CoT) dargestellt werden. Planung ist eine häufig verwendete Strategie bei großen Herausforderungen. Es hilft Agenten, ihr Denken zu organisieren, Ziele zu setzen und Schritte zum Erreichen dieser Ziele zu identifizieren. In der konkreten Umsetzung kann die Planung zwei Schritte umfassen:
Planformulierung: Der Agent zerlegt komplexe Aufgaben in besser überschaubare Teilaufgaben. Zum Beispiel: einmalige Zerlegung und anschließende sequenzielle Ausführung, schrittweise Planung und Ausführung, Mehrpfadplanung und Auswahl des optimalen Pfades usw. In einigen Szenarien, die Fachkenntnisse erfordern, können Agenten in domänenspezifische Planner-Module integriert werden, um die Funktionen zu erweitern.
Planreflexion: Nachdem Sie einen Plan erstellt haben, können Sie darüber nachdenken und seine Stärken und Schwächen bewerten. Diese Reflexion basiert im Allgemeinen auf drei Aspekten: der Nutzung interner Feedback-Mechanismen, der Einholung von Feedback aus der Interaktion mit Menschen und der Einholung von Feedback aus der Umgebung.
Übertragbarkeit und Generalisierung:
LLMs mit Weltwissen verleihen intelligenten Agenten leistungsstarke Migrations- und Generalisierungsfähigkeiten. Ein guter Agent ist keine statische Wissensbasis, sondern sollte auch über dynamische Lernfähigkeiten verfügen:
Verallgemeinerung auf unbekannte Aufgaben: Mit zunehmender Modellgröße und Trainingsdaten entstehen LLMs, die unbekannte Aufgaben lösen und über erstaunliche Fähigkeiten verfügen.Große Modelle, die mit Anweisungen fein abgestimmt sind, schneiden in Zero-Shot-Tests gut ab und erzielen bei vielen Aufgaben Ergebnisse, die denen von Expertenmodellen ebenbürtig sind.
In-Kontext-Lernen: Große Modelle sind nicht nur in der Lage, analog aus einer kleinen Anzahl von Beispielen im Kontext zu lernen, diese Fähigkeit kann auch auf multimodale Szenen über den Text hinaus ausgeweitet werden, wodurch reale Anwendungen für Agenten bereitgestellt werden mehr Möglichkeiten.
Kontinuierliches Lernen: Die größte Herausforderung beim kontinuierlichen Lernen ist das katastrophale Vergessen, das heißt, wenn das Modell eine neue Aufgabe lernt, verliert es leicht Wissen über frühere Aufgaben. Intelligente Agenten in spezialisierten Domänen sollten versuchen, den Wissensverlust in allgemeinen Domänen zu vermeiden.
Wahrnehmungsende: WahrnehmungMenschen nehmen die Welt auf multimodale Weise wahr, daher haben Forscher die gleichen Erwartungen an LLM-basierte Agenten. Die multimodale Wahrnehmung kann das Verständnis des Agenten für die Arbeitsumgebung vertiefen und deren Vielseitigkeit deutlich verbessern. Texteingabe: Da es sich um die grundlegendste Fähigkeit von LLMs handelt, werde ich hier nicht auf Details eingehen. Visuelle Eingabe: LLMs selbst verfügen nicht über visuelle Wahrnehmungsfähigkeiten und können nur diskrete Textinhalte verstehen. Und visuelle Eingaben enthalten normalerweise viele Informationen über die Welt, einschließlich der Eigenschaften von Objekten, räumlichen Beziehungen, Szenenlayout usw. Gängige Methoden sind:
- Konvertieren Sie visuelle Eingaben in entsprechende Textbeschreibungen (Bildunterschriften): Sie können von LLMs direkt verstanden werden und sind gut interpretierbar.
- Visuelle Informationen kodieren und darstellen: Das Wahrnehmungsmodul besteht aus einem visuellen Grundmodell + LLMs-Paradigma, und das Modell versteht den Inhalt verschiedener Modalitäten durch Ausrichtungsoperationen, die durchgängig trainiert werden können.
Auditorischer Input: Auch das Hören ist ein wichtiger Teil der menschlichen Wahrnehmung. Da LLMs über ausgezeichnete Fähigkeiten zum Aufrufen von Werkzeugen verfügen, ist es eine intuitive Idee, dass der Agent LLMs als Kontrollzentrale verwenden kann, indem er vorhandene Werkzeugsätze oder Expertenmodelle kaskadenartig aufruft, um Audioinformationen wahrzunehmen. Darüber hinaus kann Audio auch visuell durch ein Spektrogramm dargestellt werden. Spektrogramme können als flache Bilder zur Darstellung von 2D-Informationen verwendet werden, sodass einige visuelle Verarbeitungsmethoden auf das Sprachfeld übertragen werden können. Andere Eingaben: Informationen in der realen Welt sind viel mehr als nur Text, Sehen und Hören. Die Autoren hoffen, dass intelligente Agenten in Zukunft mit umfassenderen Wahrnehmungsmodulen wie Berührung, Geruch und anderen Organen ausgestattet werden, um umfassendere Attribute von Zielobjekten zu erhalten. Gleichzeitig können Agenten auch die Temperatur, Luftfeuchtigkeit und Helligkeit der Umgebung klar erkennen und umweltbewusstere Maßnahmen ergreifen. Darüber hinaus kann der Agent auch an die Wahrnehmung der weiteren Gesamtumgebung herangeführt werden: mithilfe ausgereifter Wahrnehmungsmodule wie Lidar, GPS und inertialer Messeinheiten. Nachdem das Gehirn Analysen und Entscheidungen getroffen hat, muss der Agent auch Maßnahmen ergreifen, um die Umgebung anzupassen oder zu verändern: Textausgabe: Als LLMs werden die meisten grundlegenden Fähigkeiten hier nicht beschrieben. Werkzeugnutzung: Obwohl LLMs über hervorragende Wissensreserven und professionelle Fähigkeiten verfügen, können bei spezifischen Problemen eine Reihe von Herausforderungen wie Robustheitsprobleme und Halluzinationen auftreten. Gleichzeitig können Tools als Erweiterung der Fähigkeiten des Benutzers Hilfestellungen in Aspekten wie Professionalität, Sachlichkeit und Interpretierbarkeit bieten. Sie können beispielsweise einen Taschenrechner zum Lösen mathematischer Probleme und eine Suchmaschine zum Suchen nach Echtzeitinformationen verwenden. Darüber hinaus können Tools auch den Aktionsraum intelligenter Agenten erweitern. Multimodale Aktionen können beispielsweise durch den Aufruf von Expertenmodellen wie Sprachgenerierung und Bildgenerierung erhalten werden. Daher ist es eine sehr wichtige und vielversprechende Richtung, Agenten zu hervorragenden Tool-Benutzern zu machen, das heißt zu lernen, wie man Tools effektiv nutzt. Zu den Hauptmethoden des Werkzeuglernens gehören derzeit das Lernen aus Demonstrationen und das Lernen aus Feedback. Darüber hinaus können Meta-Learning, Kurslernen usw. auch verwendet werden, um Agenten Generalisierungsfähigkeiten bei der Verwendung verschiedener Tools bereitzustellen. Darüber hinaus können intelligente Agenten lernen, Werkzeuge „autark“ herzustellen und so ihre Autonomie und Unabhängigkeit zu erhöhen. Verkörperte Aktion: Verkörperung bezieht sich auf die Fähigkeit eines Agenten, die Umgebung zu verstehen, zu transformieren und seinen eigenen Zustand während der Interaktion mit der Umgebung zu aktualisieren. Embodied Action gilt als Brücke zwischen virtueller Intelligenz und physischer Realität.Herkömmliche, auf Verstärkungslernen basierende Agenten weisen Einschränkungen in Bezug auf Stichprobeneffizienz, Verallgemeinerung und komplexe Problembegründung auf, während LLM-basierte Agenten umfangreiches intrinsisches Wissen über große Modelle einführen und es verkörperten Agenten ermöglichen, sich wie Menschen zu verhalten, die physische Umgebung aktiv wahrzunehmen und zu beeinflussen . Abhängig vom Grad der Autonomie des Agenten bei der Aufgabe oder der Komplexität der Aktion kann es folgende atomare Aktionen geben:
- Beobachtung kann dem intelligenten Agenten helfen, seine eigene Position in der Umgebung zu lokalisieren und Objekte wahrzunehmen und Gegenstände sowie das Erhalten anderer Umgebungsinformationen;
- Manipulation besteht darin, bestimmte Greif-, Schiebe- und andere operative Aufgaben auszuführen;
- Navigation erfordert, dass der intelligente Agent seine Position entsprechend dem Aufgabenziel ändert und seinen Status entsprechend aktualisiert zu den Umweltinformationen.
Durch die Kombination dieser atomaren Aktionen können Agenten komplexere Aufgaben erledigen. Zum Beispiel verkörperte QS-Aufgaben wie „Ist die Wassermelone in der Küche größer als die Schüssel?“ Um dieses Problem zu lösen, muss der Agent zur Küche navigieren und die Antwort ableiten, nachdem er die Größe beider beobachtet hat. Begrenzt durch die hohen Kosten der Hardware der physischen Welt und den Mangel an verkörperten Datensätzen konzentriert sich die aktuelle Forschung zu verkörperten Aktionen immer noch hauptsächlich auf virtuelle Sandbox-Umgebungen wie die Spieleplattform „Minecraft“. Daher freuen sich die Autoren einerseits über ein realitätsnäheres Aufgabenparadigma und einen Bewertungsstandard. Andererseits benötigen sie auch weitere Untersuchungen zur effizienten Konstruktion relevanter Datensätze. Agent in der Praxis: Vielfältige AnwendungsszenarienDerzeit haben LLM-basierte Agenten beeindruckende Vielfalt und leistungsstarke Leistung bewiesen. Bekannte Anwendungsbeispiele wie AutoGPT, MetaGPT, CAMEL und GPT Engineer boomen in einem beispiellosen Tempo. Bevor die spezifischen Anwendungen vorgestellt wurden, diskutierten die Autoren die Designprinzipien von Agent in Practice: 1 Helfen Sie Benutzern, sich von täglichen Aufgaben und sich wiederholenden Arbeiten zu befreien, den menschlichen Arbeitsdruck zu reduzieren und die Effizienz bei der Lösung zu verbessern Aufgaben; 2. Benutzer müssen keine expliziten Anweisungen auf niedriger Ebene mehr erteilen und können Probleme völlig autonom analysieren, planen und lösen. 3 Versuchen Sie, das Gehirn zu befreien Wissenschaft Nutzen Sie ihr Potenzial auf diesem Gebiet voll aus und führen Sie innovative und explorative Arbeiten durch. Auf dieser Grundlage kann die Anwendung von Agenten drei Paradigmen haben: Die drei Anwendungsparadigmen des LLM-basierten Agenten: Einzelagent, Multiagent und Mensch-Computer-Interaktion.
Single-Agent-Szenario
Intelligente Agenten, die menschliche Befehle in natürlicher Sprache annehmen und tägliche Aufgaben ausführen können, erfreuen sich derzeit bei Benutzern großer Beliebtheit und haben einen hohen praktischen Wert. Die Autoren gingen zunächst auf die vielfältigen Anwendungsszenarien und entsprechenden Fähigkeiten im Anwendungsszenario eines einzelnen intelligenten Agenten ein.
In diesem Artikel wird die Anwendung eines einzelnen intelligenten Agenten in die folgenden drei Ebenen unterteilt: 的 Drei Ebenen von Anwendungsszenarien einzelner Agenturen: aufgabenorientiert, innovative Ausrichtung und Lebenszyklusorientierung. In einer aufgabenorientierten Bereitstellung unterstützen Agenten menschliche Benutzer bei der Bewältigung grundlegender täglicher Aufgaben. Sie müssen über grundlegendes Befehlsverständnis, Aufgabenzerlegung und die Fähigkeit verfügen, mit der Umgebung zu interagieren. Konkret kann die tatsächliche Anwendung von Agenten entsprechend den vorhandenen Aufgabentypen in simulierte Netzwerkumgebungen und simulierte Lebensszenarien unterteilt werden.
-
Beim Einsatz von innovationsorientierten können Agenten das Potenzial für unabhängige Forschung in hochmodernen wissenschaftlichen Bereichen nachweisen. Obwohl die inhärente Komplexität und der Mangel an Trainingsdaten aus Spezialgebieten die Konstruktion intelligenter Agenten behindern, gibt es in Bereichen wie Chemie, Materialien, Computer usw. bereits große Fortschritte.
-
In einer lebenszyklusorientierten Bereitstellung haben Agenten die Möglichkeit, in einer offenen Welt kontinuierlich neue Fähigkeiten zu erforschen, zu erlernen und anzuwenden und lange zu überleben. In diesem Abschnitt nehmen die Autoren das Spiel „Minecraft“ als Beispiel. Da die Überlebensherausforderung im Spiel als Mikrokosmos der realen Welt betrachtet werden kann, nutzen viele Forscher sie als einzigartige Plattform, um die umfassenden Fähigkeiten von Agenten zu entwickeln und zu testen.
Multi-Agent-Szenario Bereits 1986 machte Marvin Minsky eine zukunftsweisende Vorhersage. In „The Society of Mind“ schlug er eine neuartige Theorie der Intelligenz vor und argumentierte, dass Intelligenz aus der Interaktion vieler kleinerer, funktionsspezifischer Agenten entsteht. Einige Agenten können beispielsweise für die Erkennung von Mustern verantwortlich sein, während andere für die Entscheidungsfindung oder die Generierung von Lösungen verantwortlich sein können. Diese Idee wurde mit dem Aufkommen der verteilten künstlichen Intelligenz konkret umgesetzt. Das Multi-Agent-System ist eines der Hauptforschungsthemen und konzentriert sich hauptsächlich darauf, wie Agenten sich effektiv koordinieren und zusammenarbeiten können, um Probleme zu lösen. Der Autor dieses Artikels unterteilt die Interaktion zwischen Multi-Agenten in die folgenden zwei Formen: die beiden Interaktionsformen von Multi-Agent-Anwendungsszenarien: kooperative Interaktion und Konfrontationsinteraktion.
Kooperative Interaktion: Kooperative Agentensysteme sind der am weitesten verbreitete Typ in praktischen Anwendungen und können die Aufgabeneffizienz effektiv verbessern und gemeinsam die Entscheidungsfindung verbessern. Konkret unterteilen die Autoren kooperative Interaktionen nach unterschiedlichen Kooperationsformen in ungeordnete Kooperation und geordnete Kooperation.
Wenn alle Agenten ihre Ansichten und Meinungen frei äußern und in nicht sequentieller Weise zusammenarbeiten, spricht man von ungeordneter Zusammenarbeit.
- Wenn alle Agenten bestimmte Regeln befolgen, z. B. ihre Meinung nacheinander in Form eines Fließbands äußern, verläuft der gesamte Zusammenarbeitsprozess ordnungsgemäß, was als geordnete Zusammenarbeit bezeichnet wird.
-
Kontradiktorische Interaktion: Intelligente Agenten interagieren auf die Art und Weise, wie sie es tun. Durch Wettbewerb, Verhandlungen und Debatten geben Agenten ihre ursprünglichen Überzeugungen auf, die möglicherweise falsch sind, und führen sinnvolle Überlegungen zu ihrem eigenen Verhalten oder Denkprozess durch, was letztendlich zu einer Verbesserung der Antwortqualität des gesamten Systems führt.
Mensch-Computer-InteraktionsszenarioMensch-Agent-Interaktion ist, wie der Name schon sagt, ein intelligenter Agent, der mit Menschen zusammenarbeitet, um Aufgaben zu erledigen. Einerseits muss die dynamische Lernfähigkeit des Agenten durch Kommunikation unterstützt werden, andererseits ist die Leistung des aktuellen Agentensystems in Bezug auf die Interpretierbarkeit noch unzureichend und es kann Probleme in Bezug auf Sicherheit, Legalität usw. geben, sodass menschliches Handeln erforderlich ist Beteiligung. Regulierung und Aufsicht. Die Autoren unterteilen die Mensch-Agent-Interaktion in der Arbeit in die folgenden zwei Modi: 的 Zwei Modi der Mensch-Maschine-Interaktionsszene: Modus „Lehrer-AUSFÜHRER“ vs. Modus „Equal PARTNERSHIP“. Instructor-Executor-Modus- : Menschen fungieren als Instruktoren, die Anweisungen und Feedback geben; Agenten fungieren als Ausführende, die sich schrittweise entsprechend den Anweisungen anpassen und optimieren. Dieses Modell wird häufig in den Bereichen Bildung, Medizin, Wirtschaft und anderen Bereichen eingesetzt.
Gleichberechtigter Partnerschaftsmodus: - Einige Studien haben beobachtet, dass Agenten in der Kommunikation mit Menschen Empathie zeigen oder sich gleichberechtigt an der Aufgabenausführung beteiligen können. Intelligente Agenten zeigen Potenzial für die Anwendung im täglichen Leben und werden voraussichtlich in Zukunft in die menschliche Gesellschaft integriert.
Agentengesellschaft: Von der Persönlichkeit zur Sozialität Schon lange träumen Forscher vom Aufbau einer „interaktiven künstlichen Gesellschaft“, vom Sandkastenspiel „Die Sims“ bis zu „Meta „Universum“, die menschliche Definition einer simulierten Gesellschaft, lässt sich wie folgt zusammenfassen: Umwelt + Individuen, die in der Umwelt leben und interagieren.
In dem Artikel beschreiben die Autoren anhand eines Diagramms den konzeptionellen Rahmen der Agentengesellschaft:
念 Der konzeptionelle Rahmen der Agenturgesellschaft ist in zwei Schlüsselteile unterteilt: Agentur und Umwelt.
In diesem Rahmen sehen wir: Linker Teil: - Auf individueller Ebene zeigen Agenten eine Vielzahl verinnerlichter Verhaltensweisen wie Planung, Argumentation und Reflexion. Darüber hinaus weisen Agenten intrinsische Persönlichkeitsmerkmale auf, die kognitive, emotionale und persönliche Dimensionen umfassen.
Mittelteil: - Ein einzelner Agent kann mit anderen Einzelagenten eine Gruppe bilden, um gemeinsam Gruppenverhalten wie Kooperation an den Tag zu legen, etwa kollaborative Zusammenarbeit.
Rechter Teil: - Die Umgebung kann in Form einer virtuellen Sandbox-Umgebung oder einer realen physischen Welt vorliegen. Zu den Elementen der Umwelt gehören menschliche Akteure und verschiedene verfügbare Ressourcen. Für einen einzelnen Agenten sind auch andere Agenten Teil der Umgebung.
Gesamtinteraktion: - Agenten beteiligen sich aktiv am gesamten Interaktionsprozess, indem sie die äußere Umgebung wahrnehmen und Maßnahmen ergreifen. Das soziale Verhalten und die Persönlichkeit von Agenten : Aus sozialer Sicht lässt sich Verhalten in zwei Ebenen einteilen: individuell und kollektiv:
Das individuelle Verhalten bildet die Grundlage für die Wirkungsweise und Entwicklung des Agenten selbst. Es umfasst Eingaben, die durch Wahrnehmung dargestellt werden, Ausgaben, die durch Handlungen dargestellt werden, und das eigene verinnerlichte Verhalten des Agenten. Schwarmverhalten bezieht sich auf das Verhalten, das auftritt, wenn zwei oder mehr Agenten spontan interagieren. Es umfasst positive Verhaltensweisen, die durch Zusammenarbeit ausgedrückt werden, negative Verhaltensweisen, die durch Konflikte ausgedrückt werden, und neutrale Verhaltensweisen, wie z. B. der Herde folgen und beobachten. Persönlichkeit: Einschließlich Kognition, Emotion und Persönlichkeit. So wie Menschen im Verlauf der Sozialisierung nach und nach ihre Eigenschaften entwickeln, weisen Agenten auch eine sogenannte „menschenähnliche Intelligenz“ auf, bei der es sich um die schrittweise Formung der Persönlichkeit durch Interaktion mit Gruppen und Umgebungen handelt.
Kognitive Fähigkeiten: Deckt den Prozess ab, durch den Agenten Wissen erwerben und verstehen. Untersuchungen zeigen, dass LLM-basierte Agenten in einigen Aspekten ähnliche Überlegungen und Intelligenz an den Tag legen können.
- Emotionale Intelligenz: umfasst subjektive Gefühle und emotionale Zustände wie Freude, Wut, Trauer und Freude sowie die Fähigkeit, Mitgefühl und Empathie zu zeigen.
- Charakterdarstellung: Um die Persönlichkeitsmerkmale von LLMs zu verstehen und zu analysieren, haben Forscher ausgereifte Bewertungsmethoden wie die Big-Five-Persönlichkeits- und MBTI-Tests verwendet, um die Vielfalt und Komplexität der Persönlichkeit zu erforschen.
Simulieren Sie die Betriebsumgebung der Gesellschaft.
- Die Agentengesellschaft besteht nicht nur aus unabhängigen Individuen, sondern umfasst auch die Umgebung, in der sie interagieren. Die Umgebung beeinflusst, wie Agenten wahrnehmen, handeln und interagieren. Im Gegenzug verändern Agenten durch ihre Handlungen und Entscheidungen auch den Zustand der Umgebung. Für einen einzelnen Agenten umfasst die Umgebung andere autonome Agenten, Menschen und verfügbare Ressourcen.
- Hier untersucht der Autor drei Arten von Umgebungen:
Textbasierte Umgebungen:
Da LLMs hauptsächlich auf Sprache als Eingabe- und Ausgabeformate basieren, sind textbasierte Umgebungen für Agenten am natürlichsten Betriebsplattform. Soziale Phänomene und Interaktionen werden durch Worte beschrieben, und die textuelle Umgebung liefert semantisches und Hintergrundwissen. Agenten existieren in solchen Textwelten und verlassen sich auf Textressourcen, um wahrzunehmen, zu argumentieren und zu handeln. Virtuelle Sandbox-Umgebung: Im Computerbereich bezieht sich eine Sandbox auf eine kontrollierte und isolierte Umgebung, die häufig für Softwaretests und Virenanalysen verwendet wird. Die virtuelle Sandbox-Umgebung der Agentengesellschaft ist eine Plattform zur Simulation sozialer Interaktion und Verhaltenssimulation. Zu ihren Hauptmerkmalen gehören: Visualisierung: Sie können einfache 2D-Grafikschnittstellen oder sogar komplexe 3D-Modellierung verwenden, um die Welt anzuzeigen. Darstellung aller Aspekte einer simulierten Gesellschaft auf intuitive Weise. Skalierbarkeit: Verschiedene Szenarien (Web, Spiele usw.) können erstellt und bereitgestellt werden, um verschiedene Experimente durchzuführen und den Agenten einen breiten Raum zum Erkunden zu bieten. Reale physische Umgebung: Eine physische Umgebung ist eine greifbare Umgebung, die aus realen Objekten und Räumen besteht, in denen Agenten beobachten und handeln. Diese Umgebung führt zu reichhaltigen sensorischen Eingaben (visuell, akustisch und räumlich). Im Gegensatz zu virtuellen Umgebungen stellen physische Räume höhere Anforderungen an das Verhalten der Agenten. Das heißt, der Agent muss in der physischen Umgebung anpassbar sein und eine ausführbare Bewegungssteuerung erzeugen.Der Autor gab ein Beispiel, um die Komplexität der physischen Umgebung zu erklären: Stellen Sie sich einen intelligenten Agenten vor, der einen Roboterarm in einer Fabrik bedient. Beim Betrieb des Roboterarms ist eine präzise Kontrolle der Kraft erforderlich, um eine Beschädigung von Objekten aus unterschiedlichen Materialien zu vermeiden Darüber hinaus muss der Agent im physischen Arbeitsbereich navigieren und den Bewegungspfad rechtzeitig anpassen, um Hindernissen auszuweichen und die Bewegungsbahn des Roboterarms zu optimieren. Diese Anforderungen erhöhen die Komplexität und Herausforderung von Agenten in der physischen Umgebung. In dem Artikel glauben die Autoren, dass eine simulierte Gesellschaft offen, beharrlich, situativ und organisiert sein sollte. Offenheit ermöglicht es den Akteuren, autonom in die simulierte Gesellschaft einzutreten und sie zu verlassen. Beständigkeit bedeutet, dass die Gesellschaft einen kohärenten Verlauf hat, der die Existenz und Funktionsweise von Subjekten in einer bestimmten Umgebung betont. wie Regeln und Einschränkungen. Was die Bedeutung der simulierten Gesellschaft angeht, ist die Stadt der Generative Agents an der Stanford University ein anschauliches Beispiel für alle – die Agentengesellschaft kann genutzt werden, um die Grenzen der Fähigkeiten der Gruppenintelligenz zu erkunden, beispielsweise die Agenten gemeinsam organisierte eine Valentinstagsparty; Es kann auch zur Beschleunigung der sozialwissenschaftlichen Forschung genutzt werden, beispielsweise zur Beobachtung von Kommunikationsphänomenen durch die Simulation sozialer Netzwerke. Darüber hinaus gibt es auch Studien zur Erforschung der Werte hinter Agenten durch Simulation ethischer Entscheidungsszenarien und zur Unterstützung der Entscheidungsfindung durch Simulation der Auswirkungen politischer Maßnahmen auf die Gesellschaft. Darüber hinaus weist der Autor darauf hin, dass diese Simulationen auch bestimmte Risiken bergen können, darunter: schädliche soziale Phänomene und Vorurteile; Zukunftsgerichtete offene Fragen Am Ende des Artikels bespricht der Autor auch einige zukunftsgerichtete offene Fragen, um die Leser zum Nachdenken anzuregen: Intelligent Agenten und große Sprachmodelle Wie können sich unsere Forschungen gegenseitig fördern und gemeinsam weiterentwickeln? Große Modelle haben ein großes Potenzial für Sprachverständnis, Entscheidungsfindung und Generalisierungsfähigkeiten gezeigt und sind zu einer Schlüsselrolle im Agentenkonstruktionsprozess geworden. Der Fortschritt von Agenten hat auch höhere Anforderungen an große Modelle gestellt. Welche Herausforderungen und Sorgen werden LLM-basierte Agenten mit sich bringen? Ob intelligente Agenten wirklich in die Praxis umgesetzt werden können, erfordert eine strenge Sicherheitsbewertung, um Schäden in der realen Welt zu vermeiden. Der Autor fasst weitere potenzielle Bedrohungen zusammen, wie zum Beispiel: illegaler Missbrauch, Gefahr der Arbeitslosigkeit, Auswirkungen auf das menschliche Wohlergehen usw. Welche Chancen und Herausforderungen bringt die Skalierung mit sich? In einer simulierten Gesellschaft kann die Erhöhung der Anzahl der Individuen die Glaubwürdigkeit und Authentizität der Simulation deutlich verbessern. Mit zunehmender Anzahl von Agenten werden jedoch Kommunikations- und Nachrichtenverbreitungsprobleme immer komplexer, und Informationsverzerrungen, Missverständnisse oder Halluzinationen werden die Effizienz des gesamten Simulationssystems erheblich verringern. Die Debatte im Internet darüber, ob LLM-basierter Agent der geeignete Weg zur AGI ist. Einige Forscher glauben, dass große Modelle, die durch GPT-4 repräsentiert werden, auf einem ausreichenden Korpus trainiert wurden und dass auf dieser Basis aufgebaute Agenten das Potenzial haben, der Schlüssel zum Öffnen der Tür zu AGI zu werden. Andere Forscher glauben jedoch, dass die autoregressive Sprachmodellierung keine echte Intelligenz zeigt, weil sie nur reagiert. Eine umfassendere Modellierungsmethode wie das Weltmodell kann zu AGI führen. Die Entwicklung der Schwarmintelligenz. Crowd Intelligence ist ein Prozess, bei dem die Meinungen vieler Menschen gesammelt und in Entscheidungen umgewandelt werden. Aber wird echte „Intelligenz“ dadurch erzeugt, dass man einfach die Anzahl der Agenten erhöht? Wie können außerdem einzelne Agenten koordiniert werden, um einer Gesellschaft intelligenter Agenten die Überwindung von „Gruppendenken“ und persönlichen kognitiven Vorurteilen zu ermöglichen? Agent as a Service (AaaS). Da LLM-basierte Agenten komplexer sind als das große Modell selbst und für kleine und mittlere Unternehmen oder Einzelpersonen schwieriger lokal aufzubauen sind, können Cloud-Anbieter die Implementierung intelligenter Agenten in Form von Diensten in Betracht ziehen, d. h. Agent- as-a-Service. Wie andere Cloud-Dienste hat AaaS das Potenzial, Benutzern hohe Flexibilität und On-Demand-Self-Service zu bieten. Das obige ist der detaillierte Inhalt vonDas NLP-Team von Fudan veröffentlichte einen 80-seitigen Überblick über groß angelegte Modellagenten und bietet in einem Artikel einen Überblick über den aktuellen Status und die Zukunft von KI-Agenten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!