Heim > Artikel > Technologie-Peripheriegeräte > Wenn sie anderer Meinung sind, werden sie punkten. Warum sind große inländische KI-Modelle süchtig danach, „die Rangliste zu klauen“?
Ich glaube, dass Freunden, die auf den Handykreis achten, der Satz „Bekomme eine Punktzahl, wenn du sie nicht akzeptierst“ nicht unbekannt sein wird. Beispielsweise haben theoretische Leistungstestsoftware wie AnTuTu und GeekBench große Aufmerksamkeit bei Spielern auf sich gezogen, da sie die Leistung von Mobiltelefonen bis zu einem gewissen Grad widerspiegeln können. Ebenso gibt es entsprechende Benchmarking-Software für PC-Prozessoren und Grafikkarten, um deren Leistung zu messen
Seit „alles kann bewertet werden“ nehmen die beliebtesten großen KI-Modelle auch an Benchmarking-Wettbewerben teil. Insbesondere nach Beginn des „Hundert-Modell-Krieges“ werden fast täglich Durchbrüche erzielt, und jedes Unternehmen bezeichnet sich selbst als „. Nr. 1 im Benchmarking“.一“
Inländische große KI-Modelle bleiben in Bezug auf die Leistungsbewertung fast nie zurück, können GPT-4 jedoch in Bezug auf die Benutzererfahrung niemals übertreffen. Dies wirft die Frage auf, dass an großen Verkaufsstellen jeder Mobiltelefonhersteller immer behaupten kann, dass seine Produkte „die Nummer eins im Verkauf“ sind. Durch das ständige Hinzufügen attributiver Begriffe wird der Markt unterteilt und unterteilt, sodass jeder die Möglichkeit hat die Nummer eins zu werden, aber im Bereich der KI-Großmodelle ist die Situation anders. Schließlich sind ihre Bewertungskriterien im Wesentlichen einheitlich, einschließlich MMLU (zur Messung der Fähigkeit zum Sprachverständnis bei mehreren Aufgaben), Big-Bench (zur Quantifizierung und Extrapolation der Fähigkeit von LLMs) und AGIEval (zur Bewertung der Fähigkeit, damit umzugehen). Aufgabenfähigkeit auf menschlicher Ebene)
Zu den in China häufig zitierten groß angelegten Modellbewertungslisten gehören derzeit SuperCLUE, CMMLU und C-Eval. Unter ihnen sind CMMLU und C-Eval umfassende Prüfungsbewertungssätze, die gemeinsam von der Tsinghua University, der Shanghai Jiao Tong University und der University of Edinburgh entwickelt wurden. CMMLU wird gemeinsam von MBZUAI, der Shanghai Jiao Tong University und Microsoft Research Asia ins Leben gerufen. SuperCLUE wurde von Fachleuten für künstliche Intelligenz großer Universitäten mitgeschrieben
Nehmen Sie C-Eval als Beispiel: Auf der Liste von Anfang September belegte Yuntian Lifeis großes Modell „Yuntian Shu“ den ersten Platz, 360 den achten Platz, aber GPT-4 konnte nur den zehnten Platz belegen. Warum gibt es kontraintuitive Ergebnisse, da der Standard quantifizierbar ist? Der Grund, warum die Liste der großen Modelllaufergebnisse eine Szene mit „herumtanzenden Teufeln“ zeigt, liegt tatsächlich darin, dass die aktuellen Methoden zur Bewertung der Leistung großer KI-Modelle Einschränkungen aufweisen. Sie verwenden eine „Fragenlösungs“-Methode, um die Fähigkeit großer Modelle zu messen .
Wie wir alle wissen, reduzieren Smartphone-SoCs, Computer-CPUs und Grafikkarten die Frequenz bei hohen Temperaturen automatisch, um ihre Lebensdauer zu schützen, während niedrige Temperaturen die Chipleistung verbessern können. Daher legen manche Menschen ihre Mobiltelefone für Leistungstests in den Kühlschrank oder statten ihre Computer mit leistungsstärkeren Kühlsystemen aus und erzielen in der Regel höhere Ergebnisse als normal. Darüber hinaus werden große Mobiltelefonhersteller auch eine „exklusive Optimierung“ für verschiedene Benchmarking-Software durchführen, die zu ihrem Standardbetrieb geworden ist
In gleicher Weise konzentriert sich die Bewertung großer Modelle der künstlichen Intelligenz auf das Beantworten von Fragen, sodass es natürlich eine Fragendatenbank geben wird. Ja, das ist der Grund, warum einige große Haushaltsmodelle ständig auf der Liste stehen. Aus verschiedenen Gründen sind die Fragendatenbanken der wichtigsten Modelllisten derzeit für Hersteller nahezu einseitig transparent, was als „Benchmark-Leakage“ bezeichnet wird. Beispielsweise umfasste die C-Eval-Liste bei ihrer Einführung 13.948 Fragen, und aufgrund der begrenzten Fragendatenbank konnten einige unbekannte große Modelle durch das Ausfüllen von Fragen „bestehen“
Sie können sich vorstellen, dass sich Ihre Prüfungsergebnisse erheblich verbessern, wenn Sie vor der Prüfung versehentlich die Testarbeit und die Standardantworten sehen und sich dann unerwartet die Fragen merken. Daher wird die durch die große Modellliste voreingestellte Fragenbank zum Trainingssatz hinzugefügt, sodass das große Modell zu einem Modell wird, das zu den Benchmark-Daten passt. Darüber hinaus ist das aktuelle LLM selbst für sein hervorragendes Gedächtnis bekannt und das Aufsagen von Standardantworten ist einfach ein Kinderspiel
Durch diese Methode können kleine Modelle auch bei den Laufergebnissen bessere Ergebnisse erzielen als große Modelle. Einige der hohen Punktzahlen, die große Modelle erzielen, werden durch eine solche „Feinabstimmung“ erzielt. In dem Artikel „Machen Sie Ihr LLM nicht zu einem Bewertungs-Benchmark-Betrüger“ wies das Hillhouse-Team der Renmin University unverblümt auf dieses Phänomen hin, und dieser opportunistische Ansatz schadet der Leistung großer Modelle.
Forscher des Hillhouse-Teams haben herausgefunden, dass Benchmark-Lecks dazu führen können, dass große Modelle übertriebene Ergebnisse liefern. Beispielsweise kann ein 1,3-B-Modell bei einigen Aufgaben ein zehnmal so großes Modell übertreffen, aber der Nebeneffekt ist, dass diese speziell für „ Prüfungsdurchführung“ Bei großen Modellen wird die Leistung bei anderen normalen Testaufgaben beeinträchtigt. Wenn Sie darüber nachdenken, werden Sie schließlich wissen, dass das große KI-Modell ein „Fragenmacher“ sein sollte, aber es ist zu einem „Fragenmerker“ geworden Spezifisches Wissen und Ausgabestil der Liste werden das große Modell definitiv in die Irre führen.
Die Nichtüberschneidung von Trainingssatz, Verifizierungssatz und Testsatz ist offensichtlich nur ein idealer Zustand. Schließlich ist die Realität sehr dürftig und das Problem des Datenlecks ist von Grund auf fast unvermeidlich. Mit der kontinuierlichen Weiterentwicklung verwandter Technologien werden die Speicher- und Empfangsfähigkeiten der Transformer-Struktur, die den Grundstein aktueller großer Modelle bildet, ständig verbessert. In diesem Sommer hat die allgemeine KI-Strategie von Microsoft Research das Ziel erreicht, dem Modell den Empfang von 100 zu ermöglichen Millionen Token, ohne inakzeptable Vergesslichkeit hervorzurufen. Mit anderen Worten: In Zukunft dürften große KI-Modelle in der Lage sein, das gesamte Internet zu lesen.
Selbst wenn der technologische Fortschritt außer Acht gelassen wird, ist eine Datenverschmutzung aufgrund des aktuellen technischen Stands tatsächlich schwer zu vermeiden, da qualitativ hochwertige Daten immer knapp sind und die Produktionskapazität begrenzt ist. Ein Anfang dieses Jahres vom KI-Forschungsteam Epoch veröffentlichtes Papier zeigte, dass KI in weniger als fünf Jahren alle hochwertigen menschlichen Sprachdaten verbrauchen wird, und dieses Ergebnis ist, dass sie die Wachstumsrate der menschlichen Sprache erhöhen wird Daten, das heißt, alle Menschen werden in den nächsten fünf Jahren veröffentlichen. Geschriebene Bücher, geschriebene Aufsätze und geschriebener Code werden alle berücksichtigt, um die Ergebnisse vorherzusagen.
Wenn ein Datensatz zur Auswertung geeignet ist, eignet er sich auf jeden Fall besser für das Vortraining. Beispielsweise verwendet GPT-4 von OpenAI den maßgeblichen Inferenzbewertungsdatensatz GSM8K. Daher gibt es derzeit ein peinliches Problem im Bereich der groß angelegten Modellbewertung. Die Nachfrage nach Daten aus groß angelegten Modellen scheint endlos zu sein, was dazu führt, dass Bewertungsagenturen schneller und weiter vorgehen müssen als groß angelegte Modelle mit künstlicher Intelligenz Hersteller. Allerdings scheinen die heutigen Bewertungsagenturen dazu nicht in der Lage zu sein
Warum achten einige Hersteller besonders auf die Laufergebnisse großer Modelle und versuchen, die Platzierungen nach und nach zu verbessern? Tatsächlich ist die Logik hinter diesem Verhalten genau die gleiche wie bei App-Entwicklern, die die Anzahl der Benutzer ihrer eigenen Apps verwässern. Schließlich ist der Benutzerumfang einer App ein Schlüsselfaktor für die Messung ihres Werts, und in der Anfangsphase des aktuellen groß angelegten KI-Modells sind die Ergebnisse auf der Bewertungsliste schließlich fast das einzige relativ objektive Kriterium In der öffentlichen Wahrnehmung bedeuten hohe Punktzahlen eine starke Leistung.
Während Betrug auf der Liste einen starken Werbeeffekt haben und sogar den Grundstein für die Finanzierung legen kann, wird die Hinzufügung kommerzieller Interessen unweigerlich dazu führen, dass große Hersteller von KI-Modellen sich beeilen, die Rangliste aufzufrischen.
Das obige ist der detaillierte Inhalt vonWenn sie anderer Meinung sind, werden sie punkten. Warum sind große inländische KI-Modelle süchtig danach, „die Rangliste zu klauen“?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!