Heim >Technologie-Peripheriegeräte >KI >Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %
Im Einklang mit der kontinuierlichen Weiterentwicklung und Selbstinnovation großer Sprachmodelle wurden Leistung, Genauigkeit und Stabilität erheblich verbessert, was durch verschiedene Benchmark-Problemsätze bestätigt wurde.
Allerdings scheinen die umfassenden Funktionen bestehender Versionen von LLM nicht in der Lage zu sein, KI-Agenten vollständig zu unterstützen.
Multimodale, Multi-Task- und Multi-Domain-Inferenz sind zu notwendigen Anforderungen für KI-Agenten im öffentlichen Medienraum geworden, aber die tatsächlichen Auswirkungen, die sich in bestimmten funktionalen Praktiken zeigen, variieren stark. Dies scheint alle KI-Roboter-Startups und großen Technologieriesen noch einmal daran zu erinnern, die Realität zu erkennen: Seien Sie bodenständiger, verbreiten Sie den Stall nicht zu weit und beginnen Sie mit KI-Verbesserungsfunktionen.
Kürzlich wurde in einem Blog über die Kluft zwischen der Bekanntheit und der tatsächlichen Leistung von KI-Agenten ein Punkt hervorgehoben: „KI-Agenten sind ein Riese in der Werbung, aber die Realität ist sehr schlecht. Dieser Satz drückt genau die Ansichten vieler Menschen aus.“ KI-Technologie. Mit der kontinuierlichen Weiterentwicklung von Wissenschaft und Technologie wurde die KI mit vielen auffälligen Funktionen und Fähigkeiten ausgestattet. In praktischen Anwendungen treten jedoch häufig einige Probleme auf und
Der Hintergrund, dass autonome KI-Agenten komplexe Aufgaben ausführen können große Sorge aufgeregt. Durch die Interaktion mit externen Tools und Funktionen können LLMs mehrstufige Arbeitsabläufe ohne menschliches Eingreifen abschließen.
Aber es stellte sich heraus, dass es anspruchsvoller war als erwartet.
WebArena Leaderboard ist eine reale und reproduzierbare Netzwerkumgebung zur Bewertung der Leistung praktischer Agenten. Ein Benchmarking der Leistung von LLM-Agenten bei realen Aufgaben zeigte, dass selbst das leistungsstärkste Modell eine Erfolgsquote von nur 35,8 % aufwies.
WebArena-Rangliste Benchmark-Ergebnisse der LLM-Agentenleistung bei realen Aufgaben: Das SteP-Modell schnitt beim Erfolgsratenindikator am besten ab und erreichte 35,8 %, während das bekannte GPT-4 die Erfolgsquote erreichte nur 14,9 %.
Der Begriff „KI-Agent“ ist nicht wirklich definiert und es gibt viele Kontroversen darüber, was genau ein Agent ist.
KI-Agent kann definiert werden als „ein LLM, dem die Fähigkeit gegeben wird, zu handeln (in der Regel Funktionsaufrufe in einer RAG-Umgebung durchzuführen), um Entscheidungen auf hoher Ebene darüber zu treffen, wie Aufgaben in der Umgebung ausgeführt werden.“ Derzeit gibt es zwei Hauptarchitekturmethoden zum Erstellen von KI-Agenten:
Einzelner Agent: Ein großes Modell übernimmt die gesamte Aufgabe und trifft alle Entscheidungen und Aktionen auf der Grundlage seines umfassenden Kontextverständnisses. Diese Methode nutzt die Emergenzleistung großer Modelle und vermeidet den durch Zerlegungsaufgaben verursachten Informationsverlust.
Herausforderungen in der Praxis
Die Leistung von KI-Agenten in tatsächlichen Anwendungen ist nicht ausgereift genug, was sich in Problemen wie ungenauer Ausgabe, unbefriedigender Leistung, höheren Kosten, Vergütungsrisiken und der Unfähigkeit, Benutzervertrauen zu gewinnen, widerspiegelt:
Aktuell engagieren sich folgende Startups im Bereich KI-Agenten, die meisten befinden sich jedoch noch im Experimentierstadium oder sind nur auf Einladung erhältlich:
Unter ihnen scheint nur MultiOn die Methode des „Erteilens von Anweisungen und Beobachten ihrer Ausführung“ zu verfolgen, was eher dem Versprechen von KI-Agenten entspricht.
Alle anderen Unternehmen gehen den RPA-Weg (Record-and-Replay), der in dieser Phase möglicherweise notwendig ist, um die Zuverlässigkeit sicherzustellen.
Gleichzeitig bringen einige große Unternehmen auch KI-Funktionen auf den Desktop und den Browser, und es sieht so aus, als würden sie eine native KI-Integration auf Systemebene erhalten.
OpenAI hat seine Mac-Desktop-App angekündigt, die mit dem Betriebssystembildschirm interagiert.
Auf der Google I/O demonstrierte Google Gemini zur Automatisierung von Einkaufsretouren.
Microsoft hat Copilot Studio angekündigt, mit dem Entwickler KI-Agentenroboter bauen können.
Diese technischen Demonstrationen sind beeindruckend, und die Leute können abwarten und sehen, wie diese Agentenfunktionen funktionieren, wenn sie öffentlich veröffentlicht und in realen Szenarien getestet werden, anstatt sich auf sorgfältig ausgewählte Demonstrationsfälle zu beschränken.
Der Autor betont: „KI-Agenten wurden überbewertet und die meisten sind noch nicht bereit für den geschäftskritischen Einsatz.“
Angesichts der schnellen Entwicklung grundlegender Modelle und Architekturen sagte er jedoch, dass die Menschen dies immer noch können Wir freuen uns auf weitere erfolgreiche Praxiseinsätze.
Der vielversprechendste Weg für KI-Agenten könnte so aussehen:
Durch die Kombination eng begrenzter LLMs, guter Auswertungsdaten, kollaborativer Mensch-Maschine-Überwachung und traditioneller Engineering-Methoden ist es möglich, bei komplexen Aufgaben wie der Automatisierung zuverlässige und gute Ergebnisse zu erzielen.
Werden KI-Agenten mühsame und sich wiederholende Aufgaben wie Web Scraping, Formularausfüllen und Dateneingabe automatisieren?
Autor: „Ja, absolut.“
Wird ein KI-Agent also automatisch einen Urlaub ohne menschliches Eingreifen buchen?
Autor: „Zumindest in naher Zukunft unwahrscheinlich.“
Das obige ist der detaillierte Inhalt vonHype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!