Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.-KI-php.cn

Heim

Technologie-Peripheriegeräte

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 20, 2023 pm 03:05 PM

理论transformer

Warum funktioniert der Transformator so gut? Woher kommt die In-Context-Learning-Fähigkeit, die es vielen großen Sprachmodellen bietet? Im Bereich der künstlichen Intelligenz hat sich der Transformer zum dominierenden Modell des Deep Learning entwickelt, die theoretischen Grundlagen für seine hervorragende Leistung sind jedoch nur unzureichend untersucht.

Kürzlich haben neue Forschungsergebnisse von Forschern von Google AI, der ETH Zürich und Google DeepMind versucht, die Antwort auf das Rätsel zu finden. In einer neuen Forschung haben sie den Transformator rückentwickelt und einige Optimierungsmethoden gefunden. Papier „Uncovering mesa-optimization algorithms in Transformers“: Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Papierlink: https://arxiv.org/abs/2309.05858

Der Autor beweist, dass im Vorwärtsdurchlauf von Transformer eine Minimierung des allgemeinen autoregressiven Verlusts auftritt Hilfsgradientenbasierter Optimierungsalgorithmus, der in ausgeführt wird. Dieses Phänomen wurde kürzlich als „Mesa-Optimierung“ bezeichnet. Darüber hinaus stellten die Forscher fest, dass der resultierende Mesa-Optimierungsalgorithmus unabhängig von der Modellgröße kontextbezogene Small-Shot-Lernfähigkeiten aufwies. Die neuen Ergebnisse ergänzen daher die Prinzipien des Small-Shot-Lernens, die zuvor in großen Sprachmodellen zum Vorschein kamen.

Die Forscher glauben, dass der Erfolg von Transformers auf seiner architektonischen Ausrichtung bei der Implementierung des Mesa-Optimierungsalgorithmus im Vorwärtsdurchlauf beruht: (i) Definition interner Lernziele und (ii) Optimierung dieser.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

. Als Eingabesequenz s_1, . . , s_t wird bis zum Zeitschritt t verarbeitet, Transformer (i) erstellt einen internen Trainingssatz bestehend aus Eingabe-Ziel-Assoziationspaaren, (ii) definiert eine interne Zielfunktion über den Ergebnisdatensatz, die zur Messung der Leistung des internen Modells verwendet wird unter Verwendung von Gewichten W, (iii) Optimieren Sie dieses Ziel und verwenden Sie das erlernte Modell, um zukünftige Vorhersagen zu generieren ^.

Zu den Beiträgen dieser Studie gehören:

Verallgemeinert die Theorie von Oswald et al. und zeigt, wie Transformer intern konstruierte Ziele theoretisch optimieren können, indem sie auf Gradienten basierende Methoden aus der Regression zur Vorhersage verwenden nächstes Element der Sequenz.
Experimentell rückentwickelte Transformer trainierten einfache Sequenzmodellierungsaufgaben und fanden starke Beweise dafür, dass ihr Vorwärtsdurchlauf einen zweistufigen Algorithmus implementiert: (i) Frühe Selbstaufmerksamkeitsschicht über Gruppierungs- und Kopiermarkierungen baut den internen Trainingsdatensatz auf Der interne Trainingsdatensatz wird implizit erstellt. Definieren Sie interne Zielfunktionen und (ii) optimieren Sie diese Ziele auf einer tieferen Ebene, um Vorhersagen zu generieren.
Ähnlich wie bei LLM zeigen Experimente, dass auch einfache autoregressive Trainingsmodelle zu Kontextlernern werden können, und spontane Anpassungen sind entscheidend für die Verbesserung des Kontextlernens von LLM und können auch die Leistung in bestimmten Umgebungen verbessern.
Inspiriert durch die Entdeckung, dass Aufmerksamkeitsschichten versuchen, die interne Zielfunktion implizit zu optimieren, stellt der Autor die Mesa-Schicht vor, eine neue Art von Aufmerksamkeitsschicht, die das Optimierungsproblem der kleinsten Quadrate effektiv lösen kann, anstatt nur einzelne Gradientenschritte durchzuführen Optimalität zu erreichen. Experimente zeigen, dass eine einzelne Mesa-Schicht Deep-Linear- und Softmax-Selbstaufmerksamkeitstransformatoren bei einfachen sequentiellen Aufgaben übertrifft und gleichzeitig eine bessere Interpretierbarkeit bietet.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Nach vorläufigen Sprachmodellierungsexperimenten wurde festgestellt, dass das Ersetzen der Standard-Selbstaufmerksamkeitsschicht durch die Mesa-Schicht vielversprechende Ergebnisse erzielte, was beweist, dass diese Schicht über leistungsstarke kontextbezogene Lernfähigkeiten verfügt.

Basierend auf aktuellen Arbeiten, die zeigen, dass Transformatoren, die explizit darauf trainiert sind, kleine Aufgaben im Kontext zu lösen, Gradientenabstiegsalgorithmen (GD) implementieren können. Hier zeigen die Autoren, dass sich diese Ergebnisse auf die autoregressive Sequenzmodellierung übertragen lassen – einen typischen Ansatz zum Training von LLMs.

Analysieren Sie zunächst Transformatoren, die auf einfache lineare Dynamik trainiert sind, wobei jede Sequenz von einem anderen W* erzeugt wird – um eine sequenzübergreifende Speicherung zu verhindern. In diesem einfachen Aufbau demonstrieren die Autoren einen Transformator, der einen Mesa-Datensatz erstellt und dann vorverarbeitete GD verwendet, um das Mesa-Ziel zu optimieren.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie trainiert einen Deep Transformer auf einer Token-Struktur, die benachbarte Sequenzelemente aggregiert. Interessanterweise führt diese einfache Vorverarbeitung zu einer äußerst spärlichen Gewichtsmatrix (weniger als 1 % der Gewichte sind ungleich Null), was zu einem rückentwickelten Algorithmus führt.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Bei einschichtiger linearer Selbstaufmerksamkeit entspricht das Gewicht einem GD-Schritt. Für tiefe Transformatoren wird die Interpretierbarkeit schwierig. Diese Studie basiert auf linearer Sondierung und untersucht, ob versteckte Aktivierungen autoregressive Ziele oder vorverarbeitete Eingaben vorhersagen.

Interessanterweise verbessert sich die Vorhersagbarkeit beider Erkennungsmethoden mit zunehmender Netzwerktiefe allmählich. Dieser Befund legt nahe, dass vorverarbeitete GD im Modell verborgen ist. Abbildung 2: Reverse Engineering der trainierten linearen Selbstaufmerksamkeitsschicht.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

^{Die Studie ergab, dass die Trainingsschicht perfekt angepasst werden kann, wenn bei der Konstruktion alle Freiheitsgrade genutzt werden, darunter nicht nur die erlernte Lernrate η, sondern auch ein Satz erlernter Anfangsgewichte W_0. Wichtig ist, dass der erlernte einstufige Algorithmus, wie in Abbildung 2 dargestellt, immer noch eine weitaus bessere Leistung erbringt als eine einzelne Mesa-Schicht.}

Wir können feststellen, dass es bei einfachen Gewichtseinstellungen leicht ist, durch grundlegende Optimierung herauszufinden, dass diese Ebene die hier untersuchte Aufgabe optimal lösen kann. Dieses Ergebnis zeigt den Vorteil fest codierter induktiver Vorspannungen zugunsten der Mesa-Optimierung.

Mit theoretischen Einblicken in den mehrschichtigen Fall analysieren Sie zunächst Deep Linear und Softmax und achten dabei nur auf Transformer. Die Autoren formatieren die Eingabe gemäß einer 4-Kanal-Struktur

, was der Wahl von W_0 = 0 entspricht.

Wie beim Single-Layer-Modell sehen die Autoren eine klare Struktur in den Gewichten des trainierten Modells. Als erste Reverse-Engineering-Analyse nutzt diese Studie diese Struktur und erstellt einen Algorithmus (RevAlg-d, wobei d die Anzahl der Schichten darstellt), der 16 Parameter pro Schichtkopf (anstelle von 3200) enthält. Die Autoren fanden heraus, dass dieser komprimierte, aber komplexe Ausdruck das trainierte Modell beschreiben kann. Insbesondere ermöglicht es eine nahezu verlustfreie Interpolation zwischen tatsächlichen Transformer- und RevAlg-d-Gewichten.

Während der RevAlg-d-Ausdruck einen trainierten mehrschichtigen Transformer mit einer kleinen Anzahl freier Parameter erklärt, ist es schwierig, ihn als Mesa-Optimierungsalgorithmus zu interpretieren. Daher verwendeten die Autoren eine lineare Regressionsuntersuchungsanalyse (Alain & Bengio, 2017; Akyürek et al., 2023), um die Eigenschaften des hypothetischen Mesa-Optimierungsalgorithmus zu ermitteln.

Auf dem in Abbildung 3 gezeigten tiefen linearen Selbstaufmerksamkeitstransformator können wir sehen, dass beide Sonden linear dekodiert werden können und die Dekodierungsleistung mit zunehmender Sequenzlänge und Netzwerktiefe zunimmt. Daher entdeckt die Basisoptimierung einen Hybridalgorithmus, der Schicht für Schicht auf das ursprüngliche Mesa-Ziel Lt (W) absteigt und gleichzeitig die Bedingungszahl des Mesa-Optimierungsproblems verbessert. Dies führt zu einem raschen Rückgang des Mesa-Ziel-Lt (W). Es ist auch zu erkennen, dass sich die Leistung mit zunehmender Tiefe deutlich verbessert.

Man kann daher davon ausgehen, dass der schnelle Rückgang des autoregressiven Mesa-Ziels Lt (W) durch schrittweise (schichtübergreifende) Mesa-Optimierung auf besser vorverarbeiteten Daten erreicht wird.建 Abbildung 3: Mehrschichtiges Transformatortraining für Reverse-Engineering-erstellte Eingänge.

Dies zeigt, dass der Transformator, wenn er auf dem gebauten Token trainiert wird, mit Mesa-Optimierung Vorhersagen trifft. Wenn Sequenzelemente direkt angegeben werden, erstellt der Transformator interessanterweise das Token selbst, indem er die Elemente gruppiert, was das Forschungsteam „Erstellen des Mesa-Datensatzes“ nennt.

Fazit

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie zeigt, dass das Transformer-Modell in der Lage ist, Gradienten-basierte Inferenzalgorithmen zu entwickeln, wenn es auf eine Sequenzvorhersageaufgabe unter einem standardmäßigen autoregressiven Ziel trainiert wird. Daher können hochmoderne Ergebnisse, die in Multitasking-Meta-Lernumgebungen erzielt wurden, auch auf traditionelle selbstüberwachte LLM-Trainingsumgebungen übertragen werden.

Darüber hinaus ergab die Studie, dass erlernte autoregressive Inferenzalgorithmen umfunktioniert werden können, um überwachte kontextbezogene Lernaufgaben zu lösen, ohne dass eine Umschulung erforderlich ist, und die Ergebnisse in einem einzigen einheitlichen Rahmen erklären.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Was hat das also mit kontextbezogenem Lernen zu tun? Die Studie geht davon aus, dass der Transformator nach dem Training der autoregressiven Sequenzaufgabe eine angemessene Mesa-Optimierung erreicht und daher ohne Feinabstimmung ein Wenig-Schuss-Kontextlernen durchführen kann.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie geht davon aus, dass es auch für LLM eine Mesa-Optimierung gibt, wodurch dessen kontextbezogene Lernfähigkeiten verbessert werden. Interessanterweise wurde in der Studie auch festgestellt, dass die effektive Anpassung von Eingabeaufforderungen für LLM auch zu erheblichen Verbesserungen der kontextuellen Lernfähigkeiten führen kann.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

^{Referenzinhalt:}

^{https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/}

^{https://twitter.com/ oswaldjoh/status/1701873029100241241}

Das obige ist der detaillierte Inhalt vonMit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Spielentwicklung tritt mit dem Dreamer -Portal von Upheaval in seine agentenische Ära einMay 02, 2025 am 11:17 AM

Umwälzungsspiele: Revolutionierung der Spielentwicklung mit KI -Agenten Upprudaval, ein Studio für Spieleentwicklung, das aus Veteranen von Branchengiganten wie Blizzard und Obsidian besteht

Uber will dein Robotaxi -Shop sein. Werden Anbieter sie lassen?May 02, 2025 am 11:16 AM

Die Robotaxi-Strategie von Uber: Ein Fahrwerk Ökosystem für autonome Fahrzeuge Auf der jüngsten Curbivore-Konferenz stellte Richard Willder von Uber ihre Strategie vor, die Robotaxi-Anbieter zu werden. Nutzung ihrer dominanten Position in

KI -Agenten, die Videospiele spielen, werden zukünftige Roboter verändernMay 02, 2025 am 11:15 AM

Videospiele erweisen sich als unschätzbare Testgründe für die modernste KI-Forschung, insbesondere bei der Entwicklung autonomer Agenten und realer Roboter, die möglicherweise sogar zum Streben nach künstlicher allgemeiner Intelligenz (AGI) beitragen. A

Der Startup Industrial Complex, VC 3.0 und James Curriers ManifestoMay 02, 2025 am 11:14 AM

Die Auswirkungen der sich entwickelnden Risikokapitallandschaft sind in Medien, Finanzberichten und alltäglichen Gesprächen offensichtlich. Die spezifischen Konsequenzen für Anleger, Startups und Mittel werden jedoch häufig übersehen. Risikokapital 3.0: ein Paradigma

Adobe Updates Creative Cloud und Firefly bei Adobe Max London 2025May 02, 2025 am 11:13 AM

Adobe Max London 2025 lieferte erhebliche Aktualisierungen für Creative Cloud und Firefly, was eine strategische Verlagerung in Richtung Zugänglichkeit und generativer KI widerspiegelt. Diese Analyse enthält Erkenntnisse aus Briefings vor der Ereignis mit Adobe Leadership. (Hinweis: Adob

Alles, was Meta in Lamacon angekündigt hatMay 02, 2025 am 11:12 AM

Die Lamacon-Ankündigungen von Meta zeigen eine umfassende KI-Strategie, die direkt mit geschlossenen KI-Systemen wie OpenAIs konkurrieren und gleichzeitig neue Einnahmequellen für seine Open-Source-Modelle erstellt. Dieser vielfältige Ansatz zielt auf BO ab

Die Brau -Kontroverse über den Vorschlag, dass KI nichts anderes ist als nur normale TechnologieMay 02, 2025 am 11:10 AM

Es gibt schwerwiegende Unterschiede im Bereich der künstlichen Intelligenz zu dieser Schlussfolgerung. Einige bestehen darauf, dass es Zeit ist, die "neuen Kleidung des Kaisers" aufzudecken, während andere der Idee, dass künstliche Intelligenz nur gewöhnliche Technologie ist, stark aussieht. Lassen Sie uns darüber diskutieren. Eine Analyse dieses innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Spalte, die die neuesten Fortschritte im Bereich der KI abdeckt, einschließlich der Identifizierung und Erklärung einer Vielzahl einflussreicher KI -Komplexitäten (klicken Sie hier, um den Link anzuzeigen). Künstliche Intelligenz als gemeinsame Technologie Erstens sind einige Grundkenntnisse erforderlich, um die Grundlage für diese wichtige Diskussion zu schaffen. Derzeit gibt es eine große Menge an Forschungen, die sich zur Weiterentwicklung künstlicher Intelligenz widmen. Das Gesamtziel ist es, künstliche allgemeine Intelligenz (AGI) und sogar mögliche künstliche Super Intelligence (AS) zu erreichen

Model -Bürger, warum KI -Wert der nächste Business -Maßstab istMay 02, 2025 am 11:09 AM

Die Effektivität des KI -Modells eines Unternehmens ist jetzt ein wichtiger Leistungsindikator. Seit dem KI -Boom wurde generative KI für alles verwendet, vom Komponieren von Geburtstagseinladungen bis zum Schreiben von Softwarecode. Dies hat zu einer Verbreitung von Sprachmod geführt

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

1 Monate vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Wo finden Sie den Site Office -Schlüssel in Atomfall

4 Wochen vorByDDD

Heiße Werkzeuge

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.