Wenn der Hype „enormen Traffic“ erzeugt hat, kümmert es niemanden, ob das Produkt großartig ist oder nicht.
In letzter Zeit hat das Geheimprojekt „Q*“ von OpenAI große Aufmerksamkeit von Insidern erhalten. Letzten Monat wurde ein darauf basierendes Projekt mit dem Codenamen „Strawberry“ erneut enthüllt. Vermutlich ist das Projekt in der Lage, fortgeschrittene Denkfähigkeiten bereitzustellen. In den letzten Tagen gab es zu diesem Projekt mehrere Gerüchtewellen im Internet, dass „die tote Taube nicht für das Leben des Menschen bezahlen wird“. Besonders der Account von „Brother Strawberry“, der ununterbrochen Werbung macht, weckt Erwartungen, enttäuscht sie aber auch. Ich hätte nicht erwartet, dass der „Marketing-Account“, auf dem er gepostet hat, wo auch immer dieser Sam Altman auftauchte, tatsächlich ein intelligentes Wesen unter seiner Haut sein würde? Heute hat der Gründer eines KI-Agenten-Startup-Unternehmens „MultiOn“ direkt behauptet: „Obwohl wir nicht auf die Veröffentlichung von „Q*“ durch OpenAI gewartet haben, haben wir einen neuen Agenten veröffentlicht, der „Strawberry“ steuert Bruder“-Konto Q, komm und spiel mit uns online!联 Multion-Mitbegründer und CEO DIV GARG, der sich eine Pause von seiner Promotion in Informatik in Stanford gönnte. Es scheint, dass die Marketingoperation von OpenAI, Brautkleider für sich selbst herzustellen, alle verwirrt hat. Schließlich haben viele Menschen in letzter Zeit die ganze Nacht auf die „großen Neuigkeiten“ von OpenAI gewartet. Dies geht auf die Interaktion zwischen Sam Altman und „Brother Strawberry“ zurück. Unter dem von Sam Altman geposteten Erdbeerfoto antwortete er „Brother Strawberry“: Die Überraschung kommt bald.
Allerdings hat Div Garg, der Gründer von „MultiOn“, stillschweigend den Beitrag gelöscht, in dem er behauptet, Agent Q sei „Bruder Erdbeere“. Dieses Mal gab „MultiOn“ bekannt, dass der von ihnen veröffentlichte „Agent Q“ ein bahnbrechender KI-Agent ist. Seine Trainingsmethode kombiniert Monte-Carlo-Baumsuche (MCTS) und Selbstkritik und lernt aus menschlichem Feedback durch einen Algorithmus namens Direct Preference Optimization (DPO).
Gleichzeitig ist die Leistung von Agent Q als KI-Agent der nächsten Generation mit Planungs- und KI-Selbstheilungsfunktionen 3,4-mal höher als die Nullstichproben-Basisleistung von LLama 3. Gleichzeitig erreichte die Erfolgsquote von Agent Q bei der Bewertung realer Szenarioaufgaben 95,4 %. Was kann Agent Q tun? Werfen wir zunächst einen Blick auf die offizielle Demo.
Es kann für Sie einen Sitzplatz in einem bestimmten Restaurant zu einer bestimmten Zeit reservieren.
Führen Sie dann Webvorgänge für Sie durch, z. B. die Überprüfung der Verfügbarkeit. Endlich erfolgreich gebucht.
Darüber hinaus können Sie Flüge buchen (z. B. diesen Samstag von New York nach San Francisco, One-Way, Fensterplatz und Economy Class).
Netizens scheinen Agent Q jedoch nicht zu kaufen. Was alle mehr beunruhigt, ist, ob sie den „Strawberry Brother“-Account wirklich nutzen, um für Dinge zu werben. Manche Leute nennen sie sogar schamlose Lügner.
Übersicht über wichtige Komponenten und MethodenDerzeit wurden verwandte Artikel zu Agent Q veröffentlicht, die gemeinsam von Forschern von MultiOn und der Stanford University verfasst wurden. Die Ergebnisse dieser Forschung werden später in diesem Jahr Entwicklern und allgemeinen Benutzern von MultiOn zur Verfügung stehen. - Papieradresse: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Zusammenfassend: Agent Q kann die Planung autonom umsetzen und Selbstkorrektur im Internet, Lernen aus Erfolgen und Misserfolgen, um die Leistung bei komplexen Aufgaben zu verbessern. Letztendlich kann der Agent besser planen, wie er im Internet surft, und sich an die Komplexität der realen Welt anpassen. Im technischen Detail umfassen die Hauptkomponenten von Agent Q Folgendes: Verwendung von MCTS (Monte-Carlo-Baumsuche, Monte-Carlo-Baumsuche) für die geführte Suche: Diese Technologie erforscht verschiedene Vorgänge und das Web Seiten generieren autonom Daten, um Erkundung und Nutzung in Einklang zu bringen. MCTS nutzt hohe Probentemperaturen und verschiedene Hinweise, um den Betriebsraum zu erweitern und so einen vielfältigen und optimalen Satz an Flugbahnen sicherzustellen. KI-Selbstkritik: Bei jedem Schritt liefert KI-basierte Selbstkritik wertvolles Feedback, um den Entscheidungsprozess des Agenten zu verbessern. Dieses Feedback auf Schrittebene ist für Langzeitaufgaben von entscheidender Bedeutung, da spärliche Signale häufig zu Lernschwierigkeiten führen. Direct Preference Optimization (DPO): Dieser Algorithmus erstellt Präferenzpaare aus Daten, die von MCTS generiert wurden, um das Modell zu verfeinern. Diese Off-Policy-Trainingsmethode ermöglicht es dem Modell, effizient aus aggregierten Datensätzen zu lernen, einschließlich suboptimaler Zweige, die während der Suche untersucht wurden, und so den Erfolg in komplexen Umgebungen zu verbessern. Das Folgende konzentriert sich auf den MCTS-Algorithmus auf der Webseitenseite (Webseite). Forscher haben untersucht, wie man Agenten durch MCTS zusätzliche Suchfunktionen bieten kann. In früheren Arbeiten besteht der MCTS-Algorithmus normalerweise aus vier Phasen: Auswahl, Erweiterung, Simulation und Backpropagation. Jede Phase spielt eine Schlüsselrolle beim Ausbalancieren von Erkundung und Nutzung sowie bei der iterativen Verfeinerung der Strategie. Die Forscher formulierten die Ausführung von Webseiten-Agenten als eine Webseiten-Baumsuche, bei der der Status aus dem Agentenverlauf und dem DOM-Baum der aktuellen Webseite besteht. Anders als Brettspiele wie Schach oder Go agieren die von den Forschern eingesetzten komplexen Netzwerkagenten in einem offenen und veränderlichen Raum. Die Forscher verwenden das Basismodell als Aktionsvorschlagsverteilung und probieren eine feste Anzahl möglicher Aktionen auf jedem Knoten (Webseite) aus. Sobald eine Aktion ausgewählt und im Browser ausgeführt wird, wird die nächste Webseite durchlaufen und zusammen mit dem aktualisierten Verlauf zu einem neuen Knoten. Der Forscher fragt das Feedback-Modell in mehreren Iterationen ab und entfernt jedes Mal die beste aus der vorherigen Iteration ausgewählte Operation aus der Liste, bis alle Operationen vollständig sortiert sind. Abbildung 4 unten zeigt den vollständigen KI-Feedback-Prozess. Expansion und Backtracking. Der Forscher wählt eine Aktion in der Browserumgebung aus und führt sie aus, um einen neuen Knoten (Seite) zu erreichen. Ausgehend von der Trajektorie des ausgewählten Zustandsknotens erweitern sie die Trajektorie mithilfe der aktuellen Richtlinie ?_?, bis sie den Endzustand erreichen. Die Umgebung gibt am Ende der Flugbahn eine Belohnung zurück, wobei ? = 1 ist, wenn der Agent erfolgreich ist, und ? = 0. Als nächstes wird diese Belohnung zurückpropagiert, indem der Wert jedes Knotens von unten nach oben vom Blattknoten zum Wurzelknoten aktualisiert wird, wie folgt: Abbildung 3 unten zeigt alle Ergebnisse und die Basislinie. Wenn es dem Agenten ermöglicht wurde, zum Testzeitpunkt nach Informationen zu suchen, d. h. indem MCTS auf das Basismodell xLAM-v0.1-r angewendet wurde, stieg die Erfolgsquote von 28,6 % auf 48,4 %, näherte sich damit der durchschnittlichen menschlichen Leistung von 50,0 % an und übertraf die reine Leistung deutlich von Zero-Shot-DPO-Modellen, die durch Ergebnisüberwachung trainiert wurden. Die Forscher haben das Basismodell basierend auf dem in der Abbildung unten dargestellten Algorithmus weiter verfeinert und das Ergebnis war eine Verbesserung von 0,9 % gegenüber dem DPO-Basismodell. Durch die Anwendung von MCTS auf das sorgfältig trainierte Agent-Q-Modell stieg die Leistung des Agenten auf 50,5 %, was leicht über der durchschnittlichen menschlichen Leistung liegt. Sie glauben, dass selbst wenn ein Agent ein umfangreiches Reinforcement-Learning-Training absolviert hat, die Fähigkeit, zum Testzeitpunkt zu suchen, immer noch einen wichtigen Paradigmenwechsel darstellt. Dies ist eine deutliche Verbesserung gegenüber ungeschulten Zero-Shot-Agenten. Obwohl intensive Supervision eine Verbesserung gegenüber reiner ergebnisorientierter Supervision darstellt, ist der Verbesserungseffekt dieser Trainingsmethode im WebShop-Umfeld nicht groß. Denn in dieser Umgebung muss der Agent nur kurze Entscheidungswege gehen und kann anhand der Ergebnisse die Kreditvergabe erlernen. Die Forscher wählten die Aufgabe, den Agenten ein Restaurant auf der offiziellen OpenTable-Website buchen zu lassen, um zu testen, wie das Agent Q-Framework in der realen Welt funktioniert. Um diese Bestellaufgabe abzuschließen, muss der Agent die Seite des Restaurants auf der OpenTable-Website finden, ein bestimmtes Datum und eine bestimmte Uhrzeit auswählen, Sitzplätze auswählen, die den Vorlieben des Benutzers entsprechen, und schließlich die Kontaktinformationen des Benutzers übermitteln, bevor die Reservierung erfolgreich sein kann. Zunächst führten sie Experimente mit dem xLAM-v0.1-r-Modell durch, aber das Modell schnitt schlecht ab, mit einer anfänglichen Erfolgsquote von nur 0,0 %. Also wandten sie sich dem LLaMa 70B Instruct-Modell zu, mit anfänglichem Erfolg. Da OpenTable jedoch eine Echtzeitumgebung ist, ist es schwierig, sie durch Programmierung oder Automatisierung zu messen und auszuwerten. Daher verwendeten die Forscher GPT-4-V, um Belohnungen für jede Flugbahn basierend auf den folgenden Metriken zu sammeln: (1) Datum und Uhrzeit sind richtig eingestellt, (2) Gruppengröße ist richtig eingestellt, (3) Benutzerinformationen wurden korrekt eingegeben, und (4) klicken Sie auf „Reservierung abschließen“. Wenn alle oben genannten Bedingungen erfüllt sind, wird davon ausgegangen, dass der Agent die Aufgabe erledigt hat. Der resultierende Überwachungsaufbau ist in Abbildung 5 unten dargestellt. Und Agent Q verbesserte die Zero-Shot-Erfolgsquote des LLaMa-3-Modells deutlich von 18,6 % auf 81,7 %. Dieses Ergebnis wurde nach nur einem einzigen Tag autonomer Datenerfassung erreicht, was einer 340 % entspricht. Anstieg der Erfolgsquote. Nach der Einführung von Online-Suchfunktionen stieg die Erfolgsquote auf 95,4 %. Weitere technische Details und Bewertungsergebnisse finden Sie im Originalpapier. Referenzlink: https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planung- und-SelbstheilungskräfteDas obige ist der detaillierte Inhalt vonHandelt es sich bei dem Konto, das die Nachrichten über „Strawberry“ von OpenAI verbreitet hat, tatsächlich um einen intelligenten Agenten? Stanford-Startup-„Hype“ AgentQ. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn