Heim >Technologie-Peripheriegeräte >KI >Um die tatsächliche Leistung von Agent effektiv zu bewerten, gibt es das neue Online-Bewertungsframework WebCanvas
Pan Yichen: Masterstudent im ersten Jahr an der Zhejiang-Universität. Kong Dehan: Leiter Modellalgorithmus bei Cross Star Technology. Zhou Sida: Er hat 2024 seinen Abschluss an der Nanchang-Universität gemacht und wird an der Xi'an University of Electronic Science and Technology einen Master-Abschluss machen. Cui Cheng: Absolvent der Zhejiang-Universität für Traditionelle Chinesische Medizin im Jahr 2024. Er wird einen Master-Abschluss an der Universität Suzhou machen.
Pan Yichen, Zhou Sida und Cui Cheng haben die Forschungsarbeit dieser Arbeit gemeinsam als Algorithmen-Praktikanten bei Cross Star Technology abgeschlossen.
In der heutigen Zeit der rasanten technologischen Entwicklung verändert das Large Language Model (LLM) die Art und Weise, wie wir mit der digitalen Welt interagieren, in beispielloser Geschwindigkeit. LLM-basierte intelligente Agenten (LLM-Agenten) werden nach und nach in unser Leben integriert, von der einfachen Informationssuche bis hin zu komplexen Webseitenvorgängen. Eine wichtige Frage bleibt jedoch offen: Wenn diese LLM-Agenten in die reale Online-Netzwerkwelt eintreten, werden sie dann die erwartete Leistung erbringen?
Die meisten vorhandenen Auswertungsmethoden verbleiben auf der Ebene statischer Datensätze oder simulierter Websites. Diese Methoden haben ihren Wert, aber ihre Grenzen liegen auf der Hand: Mit statischen Datensätzen lassen sich dynamische Änderungen in der Webumgebung, wie z. B. Schnittstellenaktualisierungen und Inhaltsiterationen, nur schwer erfassen, da ihnen die Komplexität der realen Welt fehlt und sie keine vollständige standortübergreifende Berücksichtigung finden Bei Vorgängen wie der Nutzung von Suchmaschinen und anderen Vorgängen sind diese Faktoren in realen Umgebungen unverzichtbar.
Um dieses Problem zu lösen, wurde in einem Artikel mit dem Titel „WebCanvas: Benchmarking von Web-Agenten in Online-Umgebungen“ ein innovatives Online-Bewertungsframework vorgeschlagen – WebCanvas, das darauf abzielt, die Leistung von Agenten in der realen Online-Welt zu bewerten und eine umfassende Bewertung bereitzustellen Ansatz.
Basierend auf dem WebCanvas-Framework hat der Autor den Mind2Web-Live-Datensatz erstellt, der 542 zufällig aus Mind2Web ausgewählte Aufgaben enthält. Der Autor dieses Artikels hat außerdem Schlüsselknoten für jede Aufgabe im Datensatz mit Anmerkungen versehen. Durch eine Reihe von Experimenten haben wir herausgefunden, dass die Erfolgsquote bei Aufgaben auf 23,1 % steigt, wenn der Agent mit einem Speichermodul ausgestattet ist, das durch das ReAct Reasoning Framework ergänzt wird und mit dem GPT-4-Turbo-Modell ausgestattet ist. Wir sind fest davon überzeugt, dass das Potenzial von Web Agent angesichts der kontinuierlichen Weiterentwicklung der Technologie immer noch unbegrenzt ist und diese Zahl bald überschritten wird.
SchlüsselknotenDas Konzept der „Schlüsselknoten“ ist eine der Kernideen von WebCanvas.
Schlüsselknoten beziehen sich auf die Schritte, die für die Erledigung einer bestimmten Netzwerkaufgabe unerlässlich sind, das heißt, diese Schritte sind unabhängig vom Weg zur Erledigung der Aufgabe unerlässlich. Diese Schritte reichen vom Besuch einer bestimmten Webseite bis zur Durchführung bestimmter Aktionen auf der Seite, wie etwa dem Ausfüllen eines Formulars oder dem Klicken auf eine Schaltfläche. Am Beispiel des grünen Teils des WebCanvas-Rahmens muss der Benutzer den am höchsten bewerteten kommenden Abenteuerfilm auf der Website von Rotten Tomatoes finden. Er kann dies auf verschiedene Weise tun, beispielsweise indem er von der Startseite von Rotten Tomatoes ausgeht oder direkt auf die Seite „Kommende Filme“ der Suchmaschine abzielt. Beim Filtern von Videos wählt ein Benutzer möglicherweise zuerst das Genre „Abenteuer“ aus und sortiert dann nach Beliebtheit oder umgekehrt. Obwohl es mehrere Wege zum Erreichen Ihrer Ziele gibt, ist das Aufrufen einer bestimmten Seite und das Durchsuchen dieser Seiten ein wesentlicher Schritt zur Erledigung der Aufgabe. Daher werden diese drei Vorgänge als kritische Knoten für diese Aufgabe definiert.
BewertungsindikatorenDas Bewertungssystem von WebCanvas ist in zwei Teile unterteilt: Schrittbewertung und Aufgabenbewertung, die zusammen die Bewertung der umfassenden Fähigkeiten von WebAgent darstellen.
Übersicht über Bewertungsfunktionen, wobei E das Webelement Element darstellt
Aufgabenbewertung: unterteilt in Aufgabenerfüllungsbewertung und Effizienzbewertung. Der Aufgabenabschlusswert spiegelt wider, ob der Agent alle Schrittwerte für diese Aufgabe erfolgreich erhalten hat. Der Effizienzwert berücksichtigt die Ressourcennutzung der Aufgabenausführung und wird als die durchschnittliche Anzahl der Schritte berechnet, die zur Bewertung jedes Schritts erforderlich sind.
Mind2Web-Live-Datensatz
Der Autor wählte zufällig 601 zeitunabhängige Aufgaben aus dem Mind2Web-Trainingssatz und 179 ebenso zeitunabhängige Aufgaben aus dem aufgabenübergreifenden Teilsatz des Testsatzes aus und kombinierte diese Aufgaben dann kommentiert in realen Online-Umgebungen. Schließlich erstellte der Autor einen „Mind2Web-Live-Datensatz“ bestehend aus 542 Aufgaben, darunter 438 Trainingsbeispiele und 104 Testbeispiele. Die folgende Abbildung zeigt visuell die Verteilung der Anmerkungsergebnisse und Bewertungsfunktionen.
DatenanmerkungstoolWährend des Datenanmerkungsprozesses verwendete der Autor das von Chuanxingkong Technology entwickelte iMean Builder-Browser-Plug-in. Dieses Plug-in kann das Browser-Interaktionsverhalten des Benutzers aufzeichnen, einschließlich, aber nicht beschränkt auf, Klicks, Texteingabe, Bewegen des Mauszeigers, Ziehen und andere Aktionen. Es zeichnet auch die spezifische Art der Operation, die Ausführungsparameter und den Auswahlpfad des Zielelements auf Elementinhalt und Seitenkoordinatenposition. Darüber hinaus generiert iMean Builder auch Webseiten-Screenshots für jeden Schritt des Vorgangs und bietet so eine intuitive Darstellung des Verifizierungs- und Wartungsworkflows.
Beispiel: Kommentieren von zwei verschiedenen Aufgaben mit dem iMean Builder-Plugin. (A) Finden Sie auf Yelp Limousinenparkplätze in Kalifornien, die kostenloses WLAN anbieten. (B) Finden Sie das Dota 2-Spiel auf Steam und legen Sie alle DLCs in Ihren Warenkorb.Datenpflege
Die Netzwerkumgebung verändert sich Aktualisierungen von Website-Inhalten, Anpassungen der Benutzeroberfläche und sogar Schließungen von Websites sind unvermeidlich und normal. Diese Änderungen können dazu führen, dass zuvor definierte Aufgaben oder Schlüsselknoten ihre Aktualität verlieren und dadurch die Gültigkeit und Fairness der Bewertung beeinträchtigen.
Zu diesem Zweck hat der Autor einen Datenpflegeplan entworfen, der darauf abzielt, die anhaltende Relevanz und Genauigkeit des Bewertungssatzes sicherzustellen. In der Datenerfassungsphase kann das iMean Builder-Plug-in neben der Markierung von Schlüsselknoten auch detaillierte Informationen zu jedem Schritt der Workflow-Ausführung aufzeichnen, einschließlich Aktionstyp, Selektorpfad, Elementwert, Koordinatenposition usw. Durch die anschließende Verwendung der Element-Matching-Strategie des iMean Replay SDK können Workflow-Aktionen reproduziert und ungültige Bedingungen im Workflow oder in der Bewertungsfunktion umgehend erkannt und gemeldet werden.
Durch diese Lösung lösen wir effektiv die durch Prozessfehler verursachten Herausforderungen, stellen sicher, dass sich der Bewertungsdatensatz an die kontinuierliche Entwicklung der Online-Welt anpassen kann, und bieten eine solide Grundlage für die Leistungsfähigkeit automatisierter Bewertungsagenten.
DatenverwaltungsplattformAuf der WebCanvas-Website können Benutzer alle aufgezeichneten Aufgabenprozesse und ihre Schlüsselknoten übersichtlich durchsuchen und fehlgeschlagene Prozesse schnell an den Plattformadministrator zurückmelden, um die Aktualität der Daten und die Genauigkeit sicherzustellen.
Gleichzeitig ermutigt der Autor die Community-Mitglieder, sich aktiv zu beteiligen und gemeinsam ein gutes Ökosystem aufzubauen. Ganz gleich, ob es darum geht, die Integrität bestehender Daten aufrechtzuerhalten, fortschrittlichere Agenten für Tests zu entwickeln oder sogar völlig neue Datensätze zu erstellen, WebCanvas freut sich über Beiträge aller Art. Dies fördert nicht nur die Verbesserung der Datenqualität, sondern fördert auch technologische Innovationen, die einen positiven Kreislauf zur Förderung der Entwicklung des gesamten Bereichs bilden können.
Webcanvas Homepagevisuelle Anzeige von Mind2Web-Live Dataset in der Umwelt. Das Framework besteht hauptsächlich aus vier Schlüsselkomponenten: Planungs-, Beobachtungs-, Gedächtnis- und Belohnungsmodulen.
Planung: Basierend auf der Eingabe des Barrierefreiheitsbaums verwendet das Planungsmodul das ReAct-Argumentationsframework, um logische Schlussfolgerungen durchzuführen und spezifische Betriebsanweisungen zu generieren. Die Kernfunktion dieses Moduls besteht darin, Handlungspfade basierend auf dem aktuellen Status und den Aufgabenzielen bereitzustellen.
Beobachtung: Der Agent analysiert den vom Browser bereitgestellten HTML-Quellcode und wandelt ihn in eine Barrierefreiheitsbaumstruktur um. Dieser Prozess stellt sicher, dass der Agent Webseiteninformationen in einem standardisierten Format für die anschließende Analyse und Entscheidungsfindung erhalten kann.
Speicher: Das Speichermodul ist für die Speicherung der historischen Daten des Agenten während der Aufgabenausführung verantwortlich, einschließlich, aber nicht beschränkt auf, den Denkprozess des Agenten, frühere Entscheidungen usw.
Belohnung: Das Belohnungsmodul kann das Verhalten des Agenten bewerten, einschließlich Feedback zur Qualität der Entscheidungsfindung und der Bereitstellung von Signalen für die Erledigung von Aufgaben.
Schematische Darstellung des grundlegenden Agent-Frameworks
Hauptexperimente
Der Autor verwendet das grundlegende Agent-Framework und greift zur Bewertung auf verschiedene LLMs zu (außer Belohnungsmodul). Die experimentellen Ergebnisse sind in der folgenden Abbildung dargestellt, wobei sich die Abschlussrate auf die Erfolgsrate der Schlüsselknoten und die Aufgabenerfolgsrate auf die Erfolgsrate der Aufgabe bezieht.
Darüber hinaus untersuchte der Autor auch die Auswirkungen des Belohnungsmoduls auf die Fähigkeiten des Agenten. Das Zeichen (+) stellt dar, dass die Belohnungsinformationen menschliche Anmerkungsdaten und wichtige Knoteninformationen als Referenz für den Agenten enthalten Der Human Alignment Score gibt an, wie gut der Agent auf Menschen ausgerichtet ist. Die Ergebnisse vorläufiger Experimente zeigen, dass Agent in einer Online-Netzwerkumgebung seine Fähigkeiten nicht durch das Self-Reward-Modul verbessern kann, das Reward-Modul, das die ursprünglichen Anmerkungsdaten integriert, jedoch die Fähigkeiten des Agenten verbessern kann.
Experimentelle Analyse
Im Anhang analysiert der Autor die Beziehung zwischen Aufgabenkomplexität und Aufgabenschwierigkeit Verlauf der zunehmenden Veränderungen, während die blaue Linie den Verlauf der Aufgabenerfolgsrate mit der Aufgabenkomplexität widerspiegelt.
Die Beziehung zwischen Aufgabenkomplexität und Aufgabenschwierigkeit. „Anzahl der Schritte“ bezieht sich auf die Länge der Aktionssequenz in den annotierten Daten, die zusammen mit der Anzahl der Schlüsselknoten als Referenz für die Aufgabenkomplexität dient.
Die folgende Tabelle zeigt den Zusammenhang zwischen den Versuchsergebnissen und Regionen, Geräten und Systemen.
Zusammenfassung
Auf dem Weg zur Förderung der Entwicklung der LLM- und Agententechnologie ist es entscheidend, ein Bewertungssystem aufzubauen, das sich an die reale Netzwerkumgebung anpasst. Dieser Artikel konzentriert sich auf die effektive Bewertung der Agentenleistung in der sich schnell verändernden Internetwelt. Wir haben uns der Herausforderung gestellt und dieses Ziel erreicht, indem wir Schlüsselknoten und entsprechende Bewertungsfunktionen in einer offenen Umgebung definiert und ein Datenpflegesystem entwickelt haben, um die nachfolgenden Wartungskosten zu reduzieren.
Durch unermüdliche Bemühungen haben wir wesentliche Schritte zur Einrichtung eines robusten und genauen Online-Bewertungssystems unternommen. Die Durchführung von Überprüfungen in einem dynamischen Cyberspace ist jedoch nicht einfach und bringt eine Reihe komplexer Probleme mit sich, die in geschlossenen Offline-Szenarien nicht auftreten. Bei der Evaluierung des Agenten stießen wir auf Schwierigkeiten wie instabile Netzwerkverbindungen, eingeschränkten Website-Zugriff und Einschränkungen der Evaluierungsfunktionen. Diese Probleme verdeutlichen die mühsame Aufgabe der Bewertung von Agenten in komplexen realen Umgebungen und erfordern eine kontinuierliche Verfeinerung und Anpassung des Argumentations- und Bewertungsrahmens des Agenten.
Wir rufen die gesamte wissenschaftliche Forschungsgemeinschaft auf, zusammenzuarbeiten, um unbekannte Herausforderungen zu bewältigen und die Innovation und Verbesserung der Bewertungstechnologie voranzutreiben. Wir sind fest davon überzeugt, dass diese Hindernisse nur durch kontinuierliche Forschung und Praxis schrittweise überwunden werden können. Wir freuen uns darauf, Hand in Hand mit unseren Kollegen zusammenzuarbeiten, um eine neue Ära des LLM-Agenten einzuleiten.
Das obige ist der detaillierte Inhalt vonUm die tatsächliche Leistung von Agent effektiv zu bewerten, gibt es das neue Online-Bewertungsframework WebCanvas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!