Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

WBOY
WBOYnach vorne
2023-04-13 12:04:021747Durchsuche

Da Sprachmodelle immer größer werden (die Anzahl der Parameter, der verwendete Rechenaufwand und die Größe des Datensatzes), scheint ihre Leistung besser zu werden. Dies wird als Skalierungsgesetz der natürlichen Sprache bezeichnet. Dies wurde bei vielen Missionen bewiesen.

Vielleicht werden die Ergebnisse einiger Aufgaben aufgrund der Vergrößerung der Modellgröße schlechter. Solche Aufgaben werden als inverse Skalierung bezeichnet und können anzeigen, ob in den Trainingsdaten oder im Optimierungsziel ein Fehler vorliegt.

Dieses Jahr haben mehrere Forscher der New York University einen alternativeren Wettbewerb organisiert: Sie suchten nach Aufgaben, bei denen große Modelle nicht gut sind. Bei diesen Aufgaben ist die Leistung umso schlechter, je größer das Sprachmodell ist.

Um alle zu ermutigen, sich an der Identifizierung von Inverse Scaling-Aufgaben zu beteiligen, haben sie den Inverse Scaling Award ins Leben gerufen. Die Gewinner der eingereichten Aufgaben erhalten Belohnungen aus einem Preispool von 250.000 US-Dollar. Experten, die den Preis vergeben, bewerten die Einreichungen anhand einer Reihe von Kriterien: Zu den Kriterien gehören die Stärke der inversen Skalierung, die Wichtigkeit der Aufgabe, die Neuheit, die Aufgabenabdeckung, die Reproduzierbarkeit und die Generalisierbarkeit der inversen Skalierung.

Der Wettbewerb läuft über zwei Runden. Die Frist für die erste Runde endet am 27. August 2022 und die Frist für die zweite Runde endet am 27. Oktober 2022. In der ersten von zwei Runden gingen 43 Einreichungen ein, wobei vier Aufgaben mit dem dritten Platz ausgezeichnet wurden, der in den endgültigen Inverse Scaling-Benchmark einfließt.

Relevante Forschungsergebnisse wurden in einem Artikel von mehreren Forschern von Google zusammengefasst:

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

Papierlink: https://arxiv.org/pdf/2211.02011.pdf

Inverse Scaling of Diese vier Aufgaben werden auf drei Sprachmodelle angewendet, und die Parameter der Modelle umfassen drei Größenordnungen: Gopher (42M–280B), Chinchilla (400M–70B) und Anthropic internes Modell (13M–52B). Die Aufgaben, die Belohnungen für die umgekehrte Skalierung erhalten, sind Negation QA, Hindsight Neglect, Quote Repetition und Redefine Math. Ein Beispiel für eine verwandte Aufgabe ist in Abbildung 1 dargestellt.

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

In dem Artikel führte der Autor eine detaillierte Studie zur Skalierungsleistung dieser vier Aufgaben durch.

Die Autoren führten zunächst eine Evaluierung des Modells PaLM-540B durch, das fünfmal rechenintensiver ist als das im Rahmen des Inverse Scaling Prize bewertete Modell. Beim Vergleich von PaLM-540B stellte der Autor fest, dass drei der vier Aufgaben eine Charakteristik namens U-förmige Skalierung aufwiesen: Die Leistung sank zunächst auf ein bestimmtes Niveau, wenn die Modellgröße zunahm, und dann stieg die Leistung mit zunehmender Modellgröße wieder an Anstieg.

Der Autor glaubt, dass eine U-förmige Skalierung auftritt, wenn eine Aufgabe sowohl „echte Aufgabe“ als auch „Ablenkungsaufgabe“ enthält. Mittlere Modelle können die „Distraktor-Aufgabe“ ausführen, was sich auf die Leistung auswirkt, während größere Modelle die „Distraktor-Aufgabe“ möglicherweise ignorieren und in der Lage sind, die „echte Aufgabe“ auszuführen. Die Erkenntnisse der Autoren zur U-förmigen Skalierung stimmen mit Ergebnissen von BIG-Bench-Aufgaben wie TruthfulQA überein, bei denen mathematische Theoreme identifiziert werden. Die U-förmige Skalierung hat zur Folge, dass die inverse Skalierungskurve bei größeren Modellen möglicherweise nicht funktioniert, da die Leistung möglicherweise weiter abnimmt oder zunimmt.

Als nächstes untersuchten die Autoren, ob Chain-of-Thinking (CoT)-Eingabeaufforderungen die Skalierung dieser Aufgaben veränderten. Im Vergleich zu Eingabeaufforderungen ohne CoTs bieten Eingabeaufforderungen, die CoTs verwenden, einen Anreiz für das Modell, die Aufgabe in Zwischenschritte zu zerlegen. Die Experimente des Autors zeigen, dass sich durch die Verwendung von CoT zwei der drei U-förmigen Skalierungsaufgaben in positive Skalierungskurven ändern und die übrigen Aufgaben von inverser Skalierung zu positiver Skalierung wechseln. Bei Verwendung der Eingabeaufforderung von CoT erreichte das große Modell bei zwei Aufgaben und sieben von acht Unteraufgaben in Redefine Math sogar eine Genauigkeit von 100 %.

Die Ergebnisse zeigen, dass der Begriff „Inverse Skalierung“ eigentlich nicht klar ist, denn für eine Eingabeaufforderung kann eine bestimmte Aufgabe eine inverse Skalierung sein, für andere Eingabeaufforderungen jedoch eine positive Skalierung oder eine U-förmige Skalierung.

U-förmige Skalierung

In diesem Teil verwendet der Autor die im Originalpapier vorgeschlagenen 8B-, 62B- und 540B-Palm-Modelle, um die Leistung des Palm-Modells bei vier Inverse Scaling Award-Aufgaben zu bewerten, einschließlich des 40B-Token-Trainings. Das resultierende 1B Modell (sein Rechenaufwand beträgt ca. 0,2 ZettaFLOPs). Ein einzelner Palm-540B hat ungefähr die doppelten Parameter des größten im Inverse Scaling Prize bewerteten Modells (Gopher-280B) und einen Rechenaufwand von etwa 2,5.000 ZettaFLOPs, verglichen mit nur 560 ZettaFLOPs für Chinchilla-70B.

Zusätzlich zur Einhaltung der Standardeinstellungen des Inverse Scaling Award hat der Autor auch kleine Änderungen vorgenommen, z. B. die Verwendung der Freiformgenerierung (gefolgt von einer exakten Zeichenfolgenübereinstimmung anstelle einer Rangfolgeklassifizierung). Letztere vergleicht die Wahrscheinlichkeiten von zwei Mögliche Fortsetzungen von Prompt werden erhalten. Der Autor hat auch kleine Änderungen an Prompt vorgenommen, um ihn an die Freiformgenerierung anzupassen, d.

Die spezifische Form ist in Abbildung 1 dargestellt. Die Autoren glauben, dass dies vernünftig ist, da dieser Formalismus mit neueren Arbeiten zu Eingabeaufforderungen übereinstimmt und die empirische Leistung zwischen zuvor evaluierten Modellen und PaLM 8B/62B ähnlich ist (alle von den Autoren in diesem Artikel verwendeten Eingabeaufforderungen sind verfügbar.)

Abbildung 2 zeigt die Ergebnisse von Palm, Anthropic, Gopher und Chinchilla bei vier Aufgaben:


Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark


  • Bei der Negation-QA-Aufgabe wurde die Genauigkeit von Palm-62B im Vergleich zum Palm-8B-Modell ermittelt , die Genauigkeit ist erheblich gesunken, während sich die Genauigkeit des Palm-540B-Modells verbessert hat.
  • Bei der Hindsight Neglect-Aufgabe ist die Genauigkeit von Palm-8B und Palm-62B auf viel niedrigeres Niveau als Zufallszahlen gesunken, aber Die Genauigkeit von Palm-540B erreichte 100 %. Bei der Aufgabe „Zitatwiederholung“ sank die Genauigkeit von 86 % von Palm-8B auf 81 % von Palm-62B, aber die Genauigkeit von Palm-540B erreichte 100 %. . Tatsächlich zeigen die Modelle Gopher und Chinchilla bereits Anzeichen einer U-förmigen Skalierung in der Aufgabe „Zitatwiederholung“.
  • Die Ausnahme unter diesen vier Aufgaben ist Redefine Math, da selbst beim Palm-540B keine Anzeichen einer U-förmigen Skalierung zu erkennen sind. Daher ist unklar, ob diese Aufgabe für die derzeit existierenden großen Modelle zu einer U-förmigen Skalierung wird. Oder wird es tatsächlich eine umgekehrte Skalierung sein?

Eine Frage zur U-förmigen Skalierung lautet: Warum nimmt die Leistung zuerst ab und dann zu?

Der Autor stellt eine spekulative Hypothese auf: dass die Aufgaben in jedem Inverse Scaling Award in zwei Aufgaben zerlegt werden können (1) „echte Aufgabe“ und (2) „Ablenkungsaufgabe“, die sich auf die Leistung auswirkt. Da das kleine Modell diese beiden Aufgaben nicht erfüllen kann, kann es nur eine Leistung mit nahezu zufälliger Genauigkeit erreichen. Mittlere Modelle können „Ablenkungsaufgaben“ ausführen, die zu Leistungseinbußen führen können. Große Modelle können die „Ablenkungsaufgabe“ ignorieren und die „wahre Aufgabe“ ausführen, um die Leistung zu verbessern und die Aufgabe möglicherweise zu lösen.

Abbildung 5 zeigt eine mögliche „Distraktor-Aufgabe“. Obwohl es möglich ist, die Leistung des Modells nur bei der „Distraktor-Aufgabe“ zu testen, handelt es sich hierbei um ein unvollkommenes Ablationsexperiment, da die „Distraktor-Aufgabe“ und die „wahre Aufgabe“ möglicherweise nicht nur miteinander konkurrieren, sondern möglicherweise auch eine haben gemeinsame Auswirkungen auf die Leistung. Als nächstes erklärt der Autor weiter, warum es zu einer U-förmigen Skalierung kommt und welche Arbeiten in Zukunft erledigt werden müssen.

Auswirkungen der CoT-Eingabeaufforderung auf Inverse Scaling

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

Als nächstes untersucht der Autor, wie sich die Skalierung der 4 Aufgaben des Inverse Scaling Award ändert, wenn verschiedene Arten von Eingabeaufforderungen verwendet werden. Während die Initiatoren des Inverse Scaling Award eine grundlegende Prompt-Strategie nutzten, bei der nur wenige Beispiele in die Anweisungen aufgenommen wurden, gibt das Chain-of-Thought (CoT)-Anreizmodell Zwischenschritte aus, bevor die endgültige Antwort gegeben wird, die in mehrstufigen Überlegungen verwendet werden kann Aufgaben drastisch verbessern. Das heißt, Prompt ohne CoT ist die untere Grenze der Fähigkeiten des Modells. Bei einigen Aufgaben repräsentiert die Eingabeaufforderung von CoT besser die beste Leistung des Modells.

Der obere Teil von Abbildung 3 ist ein Beispiel für eine CoT-Eingabeaufforderung, und der untere Teil ist die Leistung von Negation QA, Hindsight Neglect und Quote Repetition mit CoT-Eingabeaufforderung.

Für Negation QA und Hindsight Neglect ändert die Eingabeaufforderung von CoT die Skalierungskurve von U-förmig zu positiv. Bei der Angebotswiederholung weist die Eingabeaufforderung von CoT immer noch eine U-förmige Kurve auf, obwohl die Leistung von Palm-8B und Palm-62B deutlich besser ist und der Palm-540B eine Genauigkeit von 100 % erreicht.

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

Abbildung 4 zeigt die Ergebnisse der Redefine Math with CoT-Eingabeaufforderung. Die Aufgabe besteht tatsächlich aus 8 Unteraufgaben mit jeweils unterschiedlichen Anweisungen, daher haben die Autoren die Leistung auch nach Unteraufgaben aufgeteilt, um zu untersuchen, ob die Unteraufgaben das gleiche Skalierungsverhalten aufweisen. Zusammenfassend zeigt die Eingabeaufforderung von CoT eine positive Skalierung für alle Unteraufgaben an, wodurch bei 7 von 8 Unteraufgaben auf den Modellen Palm-62B und Palm-540B eine Genauigkeit von 100 % erreicht wird. Für die Unteraufgaben „+ als Ziffer“ und „+ als Zufallszahl“ gibt es jedoch selbst bei Verwendung des Palm-540B eine offensichtliche inverse Skalierungskurve.

Je größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark

Zusammenfassend lässt sich sagen, dass alle untersuchten Aufgaben und Teilaufgaben eine U-förmige Skalierung oder positive Skalierung zeigten, wenn die CoT-Eingabeaufforderung verwendet wurde. Dies bedeutet nicht, dass die Eingabeaufforderungsergebnisse von No-CoT ungültig sind, sondern bietet vielmehr zusätzliche Nuancen, indem es betont, wie sich die Skalierungskurve einer Aufgabe je nach Art der verwendeten Eingabeaufforderung unterscheidet. Das heißt, dieselbe Aufgabe kann für einen Eingabeaufforderungstyp eine inverse Skalierungskurve und für einen anderen Eingabeaufforderungstyp eine U-förmige Skalierung oder positive Skalierung haben. Daher gibt es für den Begriff „inverse Skalierungsaufgabe“ keine klare Definition.

Das obige ist der detaillierte Inhalt vonJe größer das Modell, desto schlechter die Leistung? Google sammelt Aufgaben, die große Modelle zum Absturz bringen, und erstellt einen neuen Benchmark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen