Heim > Artikel > Technologie-Peripheriegeräte > Sind die Benchmarks für die Bewertung großer Modelle zuverlässig? Anthropic kommt für eine große Bewertung
Mit der Verbreitung großer Modelle (LLM) ist die Bewertung von KI-Systemen zu einem wichtigen Bestandteil geworden. Welche Schwierigkeiten werden während des Bewertungsprozesses auftreten? Ein Artikel von Anthropic verrät uns die Antwort.
Zu diesem Zeitpunkt lassen sich die meisten Diskussionen rund um die Auswirkungen künstlicher Intelligenz (KI) auf die Gesellschaft auf bestimmte Eigenschaften von KI-Systemen zurückführen, wie z. B. Authentizität, Fairness, Missbrauchspotenzial usw. Das Problem besteht nun jedoch darin, dass vielen Forschern nicht vollständig bewusst ist, wie schwierig es ist, robuste und zuverlässige Modellbewertungen zu erstellen. Viele der heute vorhandenen Evaluierungskits weisen in verschiedenen Aspekten eine eingeschränkte Leistung auf.
Das KI-Startup Anthropic hat kürzlich auf seiner offiziellen Website einen Artikel mit dem Titel „Herausforderungen bei der Bewertung von KI-Systemen“ veröffentlicht. In dem Artikel heißt es, dass sie viel Zeit damit verbracht haben, eine Bewertung des KI-Systems zu erstellen, um das KI-System besser zu verstehen.
Artikeladresse: https://www.anthropic.com/index/evaluating-ai-systems
In diesem Artikel werden hauptsächlich die folgenden Aspekte behandelt:
Multiple-Choice-Bewertungen;
Nutzen Sie Dritte
Lassen Sie die Mitarbeiter messen, ob Modelle hilfreich oder schädlich sind.
Lassen Sie Domänenexperten die Analyse relevanter Bedrohungen durchführen (rotes Team). KI zur Entwicklung von Bewertungsmethoden;
Zusammenarbeit mit gemeinnützigen Organisationen zur Überprüfung von Modellen auf Schaden.
Multiple-Choice-Bewertung mag einfach erscheinen, ist es aber nicht. In diesem Artikel werden die Herausforderungen des Modells in Bezug auf die Benchmarks MMLU (Measuring Multitask Language Understanding) und BBQ (Bias Benchmark for QA) erläutert.
MMLU-DatensatzMMLU ist ein englischer Bewertungsdatensatz mit 57 Multiple-Choice-Frage- und Antwortaufgaben zu den Themen Mathematik, Geschichte, Recht usw. und ist derzeit der gängige LLM-Bewertungsdatensatz. Je höher die Genauigkeit, desto stärker sind die Fähigkeiten des Modells. In diesem Artikel wurde jedoch festgestellt, dass die Verwendung von MMLU vier Herausforderungen mit sich bringt: 1 Da MMLU weit verbreitet ist, ist diese Situation unvermeidlich und es ist für das Modell einfacher, MMLU-Daten während des Trainingsprozesses zu integrieren. Es ist das Gleiche, als ob Schüler vor einem Test Fragen sehen würden – das ist Betrug.
2. Reagiert empfindlich auf einfache Formatierungsänderungen, wie z. B. das Ändern der Option von (A) auf (1) oder das Hinzufügen zusätzlicher Leerzeichen zwischen der Option und der Antwort. Diese Vorgehensweisen können dazu führen, dass die Auswertungsgenauigkeit um etwa 5 % schwankt.
3. Einige Entwickler haben gezielte Möglichkeiten zur Verbesserung der MMLU-Ergebnisse, wie z. B. Fow-Shot-Learning oder Thought-Chain-Argumentation. Daher ist beim Vergleich der MMLU-Ergebnisse verschiedener Labore große Sorgfalt geboten.
4.MMLU wurde möglicherweise nicht sorgfältig Korrektur gelesen – einige Forscher fanden Beispiele für Beschriftungsfehler oder unbeantwortbare Fragen in MMLU.
Aufgrund der oben genannten Probleme ist es notwendig, bei der Durchführung dieser einfachen und standardisierten Beurteilung im Voraus Urteilsvermögen und Überlegungen anzustellen. Dieser Artikel zeigt, dass die Herausforderungen bei der Verwendung von MMLU im Allgemeinen auch für andere ähnliche Multiple-Choice-Bewertungen gelten.
BBQMultiple-Choice-Bewertungen können auch einige KI-Gefahren messen. Um diese Gefahren in ihrem eigenen Modell zu messen, verwendeten die Forscher von Anthropic, Claude, insbesondere den BBQ-Benchmark, einen gängigen Benchmark zur Bewertung der Modellverzerrung gegenüber Populationen. Nach dem Vergleich dieses Benchmarks mit mehreren ähnlichen Bewertungen ist dieser Artikel davon überzeugt, dass BBQ ein gutes Maß für soziale Voreingenommenheit darstellt. Die Arbeit dauerte mehrere Monate. Dieser Artikel weist darauf hin, dass die Umsetzung von BBQ viel schwieriger ist als erwartet. Das erste war, dass keine funktionierende Open-Source-Implementierung von BBQ gefunden werden konnte und die besten Ingenieure von Anthropic eine Woche brauchten, um die Evaluierung durchzuführen und zu testen. Anders als bei MMLU, das anhand der Genauigkeit bewertet wird, erfordern Bias-Scores bei BBQ Nuancen und Erfahrung zum Definieren, Berechnen und Interpretieren.
BBQ-Bias-Scores reichen von - 1 bis 1, wobei 1 auf eine signifikante Stereotyp-Bias, 0 auf keine Bias und -1 auf eine signifikante Stereotyp-Bias hinweist. Nach der Implementierung von BBQ stellte dieses Papier fest, dass einige Modelle einen Bias-Score von 0 hatten. Dieses Ergebnis stimmt die Forscher auch optimistisch und zeigt an, dass sie Fortschritte bei der Reduzierung der voreingenommenen Modellausgabe gemacht haben.
Bewertungsrahmen für DritteIn letzter Zeit haben Dritte aktiv Bewertungssuiten entwickelt. Anthropic hat bisher an zwei dieser Projekte teilgenommen: BIG-bench und HELM (Holistic Evaluation of Language Models) der Stanford University. Obwohl die Einschätzungen Dritter sinnvoll erscheinen, stehen beide Projekte vor neuen Herausforderungen.
BIG-benchBIG-bench besteht aus 204 Bewertungen, die gemeinsam von mehr als 450 Forschern durchgeführt wurden und eine Reihe von Themen abdecken, von der Wissenschaft bis zum sozialen Denken. Anthropic gab an, bei der Verwendung dieses Benchmarks auf einige Herausforderungen gestoßen zu sein: Für die Installation von BIG-bench sei viel Zeit aufgewendet worden. BIG-Bench ist nicht so Plug-and-Play wie MMLU – die Implementierung ist noch aufwändiger als die Verwendung von BBQ. BIG-Bench kann nicht effektiv skaliert werden und es ist sehr schwierig, alle 204 Bewertungen abzuschließen. Daher muss es neu geschrieben werden, damit es gut mit der verwendeten Infrastruktur funktioniert, was einen enormen Arbeitsaufwand darstellt. Darüber hinaus stellte dieser Artikel während des Implementierungsprozesses fest, dass die Bewertung einige Fehler aufwies, die sehr umständlich zu verwenden waren, sodass die Anthropic-Forscher nach diesem Experiment darauf verzichteten. HELM: Kuratieren einer Reihe von Bewertungen von oben nach unten BIG-Bench ist ein „Bottom-up“-Ansatz, bei dem jeder eine beliebige Aufgabe einreichen kann, die dann einer begrenzten Überprüfung durch eine Gruppe erfahrener Organisatoren unterliegt. HELM verfolgt einen „Top-Down“-Ansatz, bei dem Experten entscheiden, welche Aufgaben zur Bewertung des Modells verwendet werden sollen. Konkret bewertet HELM das Modell in mehreren Szenarien wie Inferenzszenarien und Szenarien mit falschen Informationen, wobei Standardindikatoren wie Genauigkeit, Robustheit und Fairness verwendet werden. Anthropic bietet HELM-Entwicklern API-Zugriff, um Benchmarks für ihre Modelle durchzuführen. Im Vergleich zu BIG-Bench hat HELM zwei Vorteile: 1) es erfordert keine umfangreiche technische Arbeit, 2) Experten können sich darauf verlassen, dass sie spezifische, qualitativ hochwertige Bewertungen auswählen und interpretieren. HELM bringt jedoch auch einige Herausforderungen mit sich. Methoden, die zur Bewertung anderer Modelle funktionieren, funktionieren möglicherweise nicht unbedingt für die Modelle von Anthropic und umgekehrt. Beispielsweise ist die Claude-Modellfamilie von Anthropic darauf trainiert, einem bestimmten Textformat zu folgen, das als Mensch/Assistent-Format bezeichnet wird. Anthropic folgt intern diesem spezifischen Format bei der Bewertung seiner Modelle. Wenn dieses Format nicht befolgt wird, gibt Claude manchmal ungewöhnliche Antworten, wodurch die Ergebnisse der Standardbewertungsmetriken weniger glaubwürdig werden. Darüber hinaus dauert die Fertigstellung von HELM lange, und die Evaluierung neuer Modelle kann Monate dauern und erfordert Koordination und Kommunikation mit externen Parteien. Künstliche Intelligenzsysteme sind für eine offene und dynamische Interaktion mit Menschen konzipiert. Wie kann man das Modell also näher an realen Anwendungen bewerten? A/B-Tests durch Crowdsourcing-Personen Derzeit stützt sich das Feld hauptsächlich (aber nicht ausschließlich) auf eine grundlegende Art der menschlichen Bewertung – A/B-Tests auf einer Crowdsourcing-Plattform, bei der Menschen mit zwei Personen interagieren und einen offenen Dialog führen mit Modellen und wählen Sie, ob die Reaktion von Modell A oder B hilfreicher oder harmloser ist, und ordnen Sie die Modelle nach ihrer Nützlichkeit oder Harmlosigkeit ein. Der Vorteil dieser Bewertungsmethode besteht darin, dass sie realen Umgebungen entspricht und eine Rangfolge verschiedener Modelle ermöglicht. Allerdings weist diese Bewertungsmethode einige Einschränkungen auf und die Durchführung der Experimente ist teuer und zeitaufwändig. Erstens erfordert dieser Ansatz die Zusammenarbeit mit einer Crowdsourcing-Plattform eines Drittanbieters und die Bezahlung dafür, den Aufbau einer benutzerdefinierten Webschnittstelle für das Modell, die Gestaltung detaillierter Anweisungen für A/B-Tester, die Analyse und Speicherung der resultierenden Daten sowie die Lösung von Einstellungsproblemen und ethischen Herausforderungen gestellt von Crowdsourcing-Mitarbeitern. Bei harmlosen Tests bergen Experimente auch das Risiko, Menschen schädlichen Emissionen auszusetzen. Die Ergebnisse menschlicher Bewertungen können auch erheblich variieren, abhängig von den Eigenschaften des menschlichen Bewerters, einschließlich der Kreativität, Motivation und Fähigkeit des menschlichen Bewerters, potenzielle Fehler im getesteten System zu erkennen. Außerdem gibt es eine inhärente Spannung zwischen nützlich und harmlos. Das System kann den Schaden verringern, indem es nicht hilfreiche Antworten wie „Ich kann Ihnen leider nicht helfen“ bereitstellt. Was ist die richtige Balance zwischen nützlich und harmlos? Welcher Indikatorwert zeigt an, dass das Modell nützlich und harmlos genug ist? Viele Fragen erfordern von den Forschern auf diesem Gebiet mehr Arbeit, um Antworten zu finden. Weitere Informationen finden Sie im Originalartikel. Originallink: https://www.anthropic.com/index/evaluating-ai-systems
Das obige ist der detaillierte Inhalt vonSind die Benchmarks für die Bewertung großer Modelle zuverlässig? Anthropic kommt für eine große Bewertung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!