Warum funktioniert der Transformator so gut? Woher kommt die In-Context-Learning-Fähigkeit, die es vielen großen Sprachmodellen bietet? Im Bereich der künstlichen Intelligenz hat sich der Transformer zum dominierenden Modell des Deep Learning entwickelt, die theoretischen Grundlagen für seine hervorragende Leistung sind jedoch nur unzureichend untersucht. Kürzlich haben neue Forschungsergebnisse von Forschern von Google AI, der ETH Zürich und Google DeepMind versucht, die Antwort auf das Rätsel zu finden. In einer neuen Forschung haben sie den Transformator rückentwickelt und einige Optimierungsmethoden gefunden. Papier „Uncovering mesa-optimization algorithms in Transformers“: Papierlink: https://arxiv.org/abs/2309.05858 Der Autor beweist, dass im Vorwärtsdurchlauf von Transformer eine Minimierung des allgemeinen autoregressiven Verlusts auftritt Hilfsgradientenbasierter Optimierungsalgorithmus, der in ausgeführt wird. Dieses Phänomen wurde kürzlich als „Mesa-Optimierung“ bezeichnet. Darüber hinaus stellten die Forscher fest, dass der resultierende Mesa-Optimierungsalgorithmus unabhängig von der Modellgröße kontextbezogene Small-Shot-Lernfähigkeiten aufwies. Die neuen Ergebnisse ergänzen daher die Prinzipien des Small-Shot-Lernens, die zuvor in großen Sprachmodellen zum Vorschein kamen. Die Forscher glauben, dass der Erfolg von Transformers auf seiner architektonischen Ausrichtung bei der Implementierung des Mesa-Optimierungsalgorithmus im Vorwärtsdurchlauf beruht: (i) Definition interner Lernziele und (ii) Optimierung dieser.
. Als Eingabesequenz s_1, . . , s_t wird bis zum Zeitschritt t verarbeitet, Transformer (i) erstellt einen internen Trainingssatz bestehend aus Eingabe-Ziel-Assoziationspaaren, (ii) definiert eine interne Zielfunktion über den Ergebnisdatensatz, die zur Messung der Leistung des internen Modells verwendet wird unter Verwendung von Gewichten W, (iii) Optimieren Sie dieses Ziel und verwenden Sie das erlernte Modell, um zukünftige Vorhersagen zu generieren . Zu den Beiträgen dieser Studie gehören:
- Verallgemeinert die Theorie von Oswald et al. und zeigt, wie Transformer intern konstruierte Ziele theoretisch optimieren können, indem sie auf Gradienten basierende Methoden aus der Regression zur Vorhersage verwenden nächstes Element der Sequenz.
- Experimentell rückentwickelte Transformer trainierten einfache Sequenzmodellierungsaufgaben und fanden starke Beweise dafür, dass ihr Vorwärtsdurchlauf einen zweistufigen Algorithmus implementiert: (i) Frühe Selbstaufmerksamkeitsschicht über Gruppierungs- und Kopiermarkierungen baut den internen Trainingsdatensatz auf Der interne Trainingsdatensatz wird implizit erstellt. Definieren Sie interne Zielfunktionen und (ii) optimieren Sie diese Ziele auf einer tieferen Ebene, um Vorhersagen zu generieren.
- Ähnlich wie bei LLM zeigen Experimente, dass auch einfache autoregressive Trainingsmodelle zu Kontextlernern werden können, und spontane Anpassungen sind entscheidend für die Verbesserung des Kontextlernens von LLM und können auch die Leistung in bestimmten Umgebungen verbessern.
- Inspiriert durch die Entdeckung, dass Aufmerksamkeitsschichten versuchen, die interne Zielfunktion implizit zu optimieren, stellt der Autor die Mesa-Schicht vor, eine neue Art von Aufmerksamkeitsschicht, die das Optimierungsproblem der kleinsten Quadrate effektiv lösen kann, anstatt nur einzelne Gradientenschritte durchzuführen Optimalität zu erreichen. Experimente zeigen, dass eine einzelne Mesa-Schicht Deep-Linear- und Softmax-Selbstaufmerksamkeitstransformatoren bei einfachen sequentiellen Aufgaben übertrifft und gleichzeitig eine bessere Interpretierbarkeit bietet.
- Nach vorläufigen Sprachmodellierungsexperimenten wurde festgestellt, dass das Ersetzen der Standard-Selbstaufmerksamkeitsschicht durch die Mesa-Schicht vielversprechende Ergebnisse erzielte, was beweist, dass diese Schicht über leistungsstarke kontextbezogene Lernfähigkeiten verfügt.
Basierend auf aktuellen Arbeiten, die zeigen, dass Transformatoren, die explizit darauf trainiert sind, kleine Aufgaben im Kontext zu lösen, Gradientenabstiegsalgorithmen (GD) implementieren können. Hier zeigen die Autoren, dass sich diese Ergebnisse auf die autoregressive Sequenzmodellierung übertragen lassen – einen typischen Ansatz zum Training von LLMs.
Analysieren Sie zunächst Transformatoren, die auf einfache lineare Dynamik trainiert sind, wobei jede Sequenz von einem anderen W* erzeugt wird – um eine sequenzübergreifende Speicherung zu verhindern. In diesem einfachen Aufbau demonstrieren die Autoren einen Transformator, der einen Mesa-Datensatz erstellt und dann vorverarbeitete GD verwendet, um das Mesa-Ziel zu optimieren.
Diese Studie trainiert einen Deep Transformer auf einer Token-Struktur, die benachbarte Sequenzelemente aggregiert. Interessanterweise führt diese einfache Vorverarbeitung zu einer äußerst spärlichen Gewichtsmatrix (weniger als 1 % der Gewichte sind ungleich Null), was zu einem rückentwickelten Algorithmus führt.
Bei einschichtiger linearer Selbstaufmerksamkeit entspricht das Gewicht einem GD-Schritt. Für tiefe Transformatoren wird die Interpretierbarkeit schwierig. Diese Studie basiert auf linearer Sondierung und untersucht, ob versteckte Aktivierungen autoregressive Ziele oder vorverarbeitete Eingaben vorhersagen. Interessanterweise verbessert sich die Vorhersagbarkeit beider Erkennungsmethoden mit zunehmender Netzwerktiefe allmählich. Dieser Befund legt nahe, dass vorverarbeitete GD im Modell verborgen ist. Abbildung 2: Reverse Engineering der trainierten linearen Selbstaufmerksamkeitsschicht.
Die Studie ergab, dass die Trainingsschicht perfekt angepasst werden kann, wenn bei der Konstruktion alle Freiheitsgrade genutzt werden, darunter nicht nur die erlernte Lernrate η, sondern auch ein Satz erlernter Anfangsgewichte W_0. Wichtig ist, dass der erlernte einstufige Algorithmus, wie in Abbildung 2 dargestellt, immer noch eine weitaus bessere Leistung erbringt als eine einzelne Mesa-Schicht.
Wir können feststellen, dass es bei einfachen Gewichtseinstellungen leicht ist, durch grundlegende Optimierung herauszufinden, dass diese Ebene die hier untersuchte Aufgabe optimal lösen kann. Dieses Ergebnis zeigt den Vorteil fest codierter induktiver Vorspannungen zugunsten der Mesa-Optimierung.
Mit theoretischen Einblicken in den mehrschichtigen Fall analysieren Sie zunächst Deep Linear und Softmax und achten dabei nur auf Transformer. Die Autoren formatieren die Eingabe gemäß einer 4-Kanal-Struktur , was der Wahl von W_0 = 0 entspricht.
Wie beim Single-Layer-Modell sehen die Autoren eine klare Struktur in den Gewichten des trainierten Modells. Als erste Reverse-Engineering-Analyse nutzt diese Studie diese Struktur und erstellt einen Algorithmus (RevAlg-d, wobei d die Anzahl der Schichten darstellt), der 16 Parameter pro Schichtkopf (anstelle von 3200) enthält. Die Autoren fanden heraus, dass dieser komprimierte, aber komplexe Ausdruck das trainierte Modell beschreiben kann. Insbesondere ermöglicht es eine nahezu verlustfreie Interpolation zwischen tatsächlichen Transformer- und RevAlg-d-Gewichten.
Während der RevAlg-d-Ausdruck einen trainierten mehrschichtigen Transformer mit einer kleinen Anzahl freier Parameter erklärt, ist es schwierig, ihn als Mesa-Optimierungsalgorithmus zu interpretieren. Daher verwendeten die Autoren eine lineare Regressionsuntersuchungsanalyse (Alain & Bengio, 2017; Akyürek et al., 2023), um die Eigenschaften des hypothetischen Mesa-Optimierungsalgorithmus zu ermitteln.
Auf dem in Abbildung 3 gezeigten tiefen linearen Selbstaufmerksamkeitstransformator können wir sehen, dass beide Sonden linear dekodiert werden können und die Dekodierungsleistung mit zunehmender Sequenzlänge und Netzwerktiefe zunimmt. Daher entdeckt die Basisoptimierung einen Hybridalgorithmus, der Schicht für Schicht auf das ursprüngliche Mesa-Ziel Lt (W) absteigt und gleichzeitig die Bedingungszahl des Mesa-Optimierungsproblems verbessert. Dies führt zu einem raschen Rückgang des Mesa-Ziel-Lt (W). Es ist auch zu erkennen, dass sich die Leistung mit zunehmender Tiefe deutlich verbessert.
Man kann daher davon ausgehen, dass der schnelle Rückgang des autoregressiven Mesa-Ziels Lt (W) durch schrittweise (schichtübergreifende) Mesa-Optimierung auf besser vorverarbeiteten Daten erreicht wird.建 Abbildung 3: Mehrschichtiges Transformatortraining für Reverse-Engineering-erstellte Eingänge. Dies zeigt, dass der Transformator, wenn er auf dem gebauten Token trainiert wird, mit Mesa-Optimierung Vorhersagen trifft. Wenn Sequenzelemente direkt angegeben werden, erstellt der Transformator interessanterweise das Token selbst, indem er die Elemente gruppiert, was das Forschungsteam „Erstellen des Mesa-Datensatzes“ nennt.
Fazit
Diese Studie zeigt, dass das Transformer-Modell in der Lage ist, Gradienten-basierte Inferenzalgorithmen zu entwickeln, wenn es auf eine Sequenzvorhersageaufgabe unter einem standardmäßigen autoregressiven Ziel trainiert wird. Daher können hochmoderne Ergebnisse, die in Multitasking-Meta-Lernumgebungen erzielt wurden, auch auf traditionelle selbstüberwachte LLM-Trainingsumgebungen übertragen werden. Darüber hinaus ergab die Studie, dass erlernte autoregressive Inferenzalgorithmen umfunktioniert werden können, um überwachte kontextbezogene Lernaufgaben zu lösen, ohne dass eine Umschulung erforderlich ist, und die Ergebnisse in einem einzigen einheitlichen Rahmen erklären.
Was hat das also mit kontextbezogenem Lernen zu tun? Die Studie geht davon aus, dass der Transformator nach dem Training der autoregressiven Sequenzaufgabe eine angemessene Mesa-Optimierung erreicht und daher ohne Feinabstimmung ein Wenig-Schuss-Kontextlernen durchführen kann.
Diese Studie geht davon aus, dass es auch für LLM eine Mesa-Optimierung gibt, wodurch dessen kontextbezogene Lernfähigkeiten verbessert werden. Interessanterweise wurde in der Studie auch festgestellt, dass die effektive Anpassung von Eingabeaufforderungen für LLM auch zu erheblichen Verbesserungen der kontextuellen Lernfähigkeiten führen kann.
Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren. https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/ https://twitter.com/ oswaldjoh/status/1701873029100241241Das obige ist der detaillierte Inhalt vonMit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!