Maison  >  Article  >  Périphériques technologiques  >  L'efficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

L'efficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

王林
王林original
2024-08-05 14:20:15819parcourir

En décembre de l'année dernière, la nouvelle architecture Mamba a fait exploser le cercle de l'IA et a lancé un défi à l'éternel Transformer. Aujourd'hui, le lancement de Google DeepMind « Hawk » et « Griffin » offre de nouvelles options pour le cercle de l'IA.


Cette fois, Google DeepMind a fait de nouveaux progrès dans les modèles de base.

Nous savons que les réseaux de neurones récurrents (RNN) ont joué un rôle central dans les premiers jours de la recherche sur l'apprentissage profond et le traitement du langage naturel et ont obtenu des résultats pratiques dans de nombreuses applications, notamment le premier système de traduction automatique de bout en bout de Google. . Cependant, ces dernières années, l’apprentissage profond et le NLP ont été dominés par l’architecture Transformer, qui combine le perceptron multicouche (MLP) et l’attention multi-têtes (MHA).

Transformer a atteint de meilleures performances que RNN dans la pratique et est également très efficace pour exploiter le matériel moderne. Les grands modèles de langage basés sur des transformateurs sont formés sur des ensembles de données massifs collectés sur le Web avec un succès remarquable.

Même si elle a connu un grand succès, l'architecture Transformer présente encore des défauts. Par exemple, en raison de la complexité quadratique de l'attention globale, Transformer est difficile à étendre efficacement à de longues séquences. De plus, le cache clé-valeur (KV) augmente de manière linéaire avec la longueur de la séquence, ce qui ralentit Transformer pendant l'inférence. À ce stade, les modèles de langage récurrents deviennent une alternative, ils peuvent compresser la séquence entière dans un état caché de taille fixe et la mettre à jour de manière itérative. Mais s’il veut remplacer Transformer, le nouveau modèle RNN doit non seulement afficher des performances comparables en termes de mise à l’échelle, mais également atteindre une efficacité matérielle similaire.

Dans un article récent de Google DeepMind, les chercheurs ont proposé la couche RG-LRU, qui est une nouvelle couche de boucle linéaire fermée, et ont conçu un nouveau bloc de boucle autour d'elle pour remplacer l'attention multi-requêtes (MQA).

Ils ont utilisé ce bloc de boucle pour construire deux nouveaux modèles, L'un est le modèle Hawk qui mélange MLP et blocs de boucle, L'autre est le modèle Griffin qui mélange MLP avec des blocs de boucle et une attention locale.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

  • Titre de l'article : Griffin : Mélanger des récurrences linéaires fermées avec une attention locale pour des modèles de langage efficaces
  • Lien de l'article : https://arxiv.org/pdf/2402.19427.pdf

Les chercheurs affirment que Hawk et Griffin présentent une mise à l'échelle de la loi de puissance entre la perte maintenue et les FLOP d'entraînement, jusqu'à 7 paramètres B, comme observé précédemment dans Transformers. Parmi eux, Griffin atteint une perte de résistance légèrement inférieure à celle de la puissante base de Transformer, quelle que soit la taille du modèle.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Les chercheurs ont surentraîné Hawk et Griffin sur des jetons 300B pour une gamme de tailles de modèles. Les résultats ont montré que Hawk-3B surpassait Mamba-3B dans l'exécution des tâches en aval, bien que le nombre de jetons entraînés ne soit que la moitié du nombre. dernier. Griffin-7B et Griffin-14B fonctionnent de manière comparable à Llama-2 bien qu'ils aient été formés sur seulement 1/7 du nombre de jetons.

De plus, Hawk et Griffin ont atteint une efficacité d'entraînement comparable à celle des Transformers sur TPU-v3. Étant donné que la couche RNN diagonale est limitée en mémoire, les chercheurs ont utilisé le noyau de la couche RG-LRU pour y parvenir.

Également pendant l'inférence, Hawk et Griffin atteignent un débit plus élevé que MQA Transformer et obtiennent une latence plus faible lors de l'échantillonnage de longues séquences. Griffin fonctionne mieux que Transformers lorsque les séquences évaluées sont plus longues que celles observées lors de la formation, et peut apprendre efficacement les tâches de copie et de récupération à partir des données de formation. Cependant, lorsque les modèles pré-entraînés ont été évalués sur des tâches de copie et de récupération exacte sans réglage fin, Hawk et Griffin ont obtenu de moins bons résultats que Transformers.

Le co-auteur et chercheur DeepMind, Aleksandar Botev, a déclaré que Griffin, un modèle qui mélange des boucles linéaires fermées et une attention locale, conserve tous les avantages de RNN et les capacités d'expression de Transformer, et peut être étendu. à l'échelle de paramètres 14B.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle                                                                            Source : https://twitter.com/botev_mg/status/1763489 634082795780

Griffin Model Architecture

Griffin Alle Modelle enthalten die folgenden Komponenten: (i) einen Restblock, (ii) einen MLP-Block, (iii) einen zeitlichen Mischblock. (i) und (ii) sind für alle Modelle gleich, es gibt jedoch drei zeitliche Mischblöcke: globale Multi-Query-Aufmerksamkeit (MQA), lokale (Schiebefenster) MQA und der in diesem Artikel vorgeschlagene wiederkehrende Block. Als Teil des wiederkehrenden Blocks verwendeten die Forscher eine Really Gated Linear Recurrent Unit (RG-LRU), eine neue wiederkehrende Schicht, die von linearen wiederkehrenden Einheiten inspiriert ist.

Wie in Abbildung 2(a) dargestellt, definiert der Restblock die globale Struktur des Griffin-Modells, das vom VornormTransformer inspiriert ist. Nach dem Einbetten der Eingabesequenz leiten wir sie durch Blöcke wie ? (? stellt die Modelltiefe dar) und wenden dann RMSNorm an, um die endgültigen Aktivierungen zu generieren. Zur Berechnung der Token-Wahrscheinlichkeiten wird eine abschließende lineare Schicht angewendet, gefolgt von Softmax. Die Gewichte dieser Ebene werden mit der Eingabeeinbettungsebene geteilt.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Rekurrentes Modell, Skalierungseffizienz vergleichbar mit Transformer

Skalierungsforschung liefert wichtige Erkenntnisse darüber, wie die Hyperparameter des Modells und sein Verhalten bei der Skalierung angepasst werden können.

Die Forscher definierten die in dieser Studie bewerteten Modelle, lieferten Skalierungskurven bis zu 7B-Parametern und darüber hinaus und bewerteten die Modellleistung bei nachgelagerten Aufgaben.

Sie betrachteten drei Modellfamilien: (1) MQA-Transformer-Basislinie; (2) Hawk: ein reines RNN-Modell; (3) Griffin: ein Hybridmodell, das wiederkehrende Blöcke mit lokaler Aufmerksamkeit mischt. Wichtige Modellhyperparameter für Modelle unterschiedlicher Größe sind in Anhang C definiert.

Die Hawk-Architektur verwendet das gleiche Restmuster und den gleichen MLP-Block wie die Transformer-Basislinie, aber die Forscher verwendeten anstelle von MQA einen wiederkehrenden Block mit einer RG-LRU-Schicht als zeitlichen Mischblock. Sie erweiterten die Breite des Schleifenblocks um einen Faktor von etwa 4/3 (d. h. ?_??? ≈4?/3), um ungefähr der Anzahl der Parameter des MHA-Blocks zu entsprechen, wenn beide die gleiche Modelldimension ? verwenden.

Griffin. Der Hauptvorteil wiederkehrender Blöcke im Vergleich zur globalen Aufmerksamkeit besteht darin, dass sie eine feste Zustandsgröße zum Zusammenfassen von Sequenzen verwenden, während die KV-Cache-Größe von MQA proportional zur Sequenzlänge wächst. Lokale Aufmerksamkeit hat die gleichen Eigenschaften, und durch die Mischung wiederkehrender Blöcke mit lokaler Aufmerksamkeit bleibt dieser Vorteil erhalten. Die Forscher fanden diese Kombination äußerst effizient, da die lokale Aufmerksamkeit die jüngste Vergangenheit genau modellieren kann, während wiederkehrende Schichten Informationen über lange Sequenzen vermitteln können.

Griffin verwendet das gleiche Restmuster und die gleichen MLP-Blöcke wie die Transformer-Basislinie. Aber im Gegensatz zur MQA Transformer-Basislinie und dem Hawk-Modell verwendet Griffin eine Mischung aus Schleifenblöcken und MQA-Blöcken. Konkret verwenden wir eine hierarchische Struktur, die zwei Restblöcke mit einem wiederkehrenden Block und dann einem lokalen (MQA) Aufmerksamkeitsblock abwechselt. Sofern nicht anders angegeben, ist die Größe des lokalen Aufmerksamkeitsfensters auf 1024 Token festgelegt.

Die wichtigsten Skalierungsergebnisse sind in Abbildung 1(a) dargestellt. Alle drei Modellfamilien wurden auf Modellgrößen im Bereich von 100 Millionen bis 7 Milliarden Parametern trainiert, obwohl Griffin über eine Version mit 14 Milliarden Parametern verfügt. Die Bewertungsergebnisse von

zu nachgelagerten Aufgaben sind in Tabelle 1 dargestellt:

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Hawk und Griffin haben beide wirklich gut gespielt. Die obige Tabelle zeigt die merkmalsnormalisierte Genauigkeit für MMLU, HellaSwag, PIQA, ARC-E und ARC-C, während die absolute Genauigkeit und Teilwerte für WinoGrande angegeben werden. Mit zunehmender Größe des Modells verbessert sich auch die Leistung von Hawk erheblich, und Hawk-3B schneidet bei nachgelagerten Aufgaben besser ab als Mamba-3B, obwohl die Anzahl der trainierten Token nur halb so hoch ist wie die von Mamba-3B. Griffin-3B schneidet deutlich besser ab als Mamba-3B, und Griffin-7B und Griffin-14B schneiden vergleichbar mit Llama-2 ab, obwohl sie mit fast 7x weniger Token trainiert werden. Hawk ist mit der MQA Transformer-Basislinie vergleichbar, während Griffin diese übertrifft.

Effizientes Trainieren des Schleifenmodells auf der Geräteseite

Bei der Entwicklung und Erweiterung des Modells stießen die Forscher auf zwei große technische Herausforderungen. Erstens, wie man Verarbeitungsmodelle effizient auf mehrere Geräte verteilt. Zweitens, wie man lineare Schleifen effektiv implementiert, um die Effizienz des TPU-Trainings zu maximieren. In diesem Artikel werden diese beiden Herausforderungen erörtert und anschließend ein empirischer Vergleich der Trainingsgeschwindigkeit von Griffin- und MQA-Basislinien bereitgestellt.

Die Forscher verglichen die Trainingsgeschwindigkeiten verschiedener Modellgrößen und Sequenzlängen, um die Rechenvorteile des Modells in diesem Artikel während des Trainingsprozesses zu untersuchen. Die Gesamtzahl der Token pro Stapel wird für jede Modellgröße konstant gehalten, was bedeutet, dass mit zunehmender Sequenzlänge die Anzahl der Sequenzen proportional abnimmt.

Abbildung 3 zeigt die relative Laufzeit des Griffin-Modells im Vergleich zum MQA-Basismodell bei 2048 Sequenzlängen.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Inferenzgeschwindigkeit

Die Inferenz von LLM besteht aus zwei Stufen. In der „Prefill“-Phase werden Eingabeaufforderungen empfangen und verarbeitet. Dieser Schritt führt tatsächlich einen Vorwärtsdurchlauf des Modells durch. Da Eingabeaufforderungen während der gesamten Sequenz parallel verarbeitet werden können, sind die meisten Modelloperationen in dieser Phase rechnerisch gebunden. Daher erwarten wir, dass die relative Geschwindigkeit von Transformern und Schleifenmodellen in der Vorbelegungsphase mit den zuvor besprochenen relativen Geschwindigkeiten übereinstimmt während des Trainings waren ähnlich.

Nach der Vorpopulation folgt die Dekodierungsphase, in der der Forscher autoregressiv Token aus dem Modell extrahiert. Wie unten gezeigt, weist das wiederkehrende Modell insbesondere bei längeren Sequenzlängen, bei denen der in der Aufmerksamkeit verwendete Schlüsselwert-Cache (KV) groß wird, eine geringere Latenz und einen höheren Durchsatz in der Dekodierungsphase auf.

Bei der Bewertung der Inferenzgeschwindigkeit sind zwei Hauptmetriken zu berücksichtigen. Die erste ist die Latenz, die die Zeit misst, die erforderlich ist, um eine bestimmte Anzahl von Tokens bei einer bestimmten Stapelgröße zu generieren. Der zweite ist der Durchsatz, der die maximale Anzahl an Token misst, die pro Sekunde generiert werden können, wenn eine bestimmte Anzahl an Token auf einem einzelnen Gerät abgetastet wird. Da der Durchsatz als Anzahl der abgetasteten Token multipliziert mit der Batch-Größe dividiert durch die Latenz berechnet wird, können Sie den Durchsatz erhöhen, indem Sie die Latenz reduzieren oder die Speichernutzung reduzieren, um eine größere Batch-Größe auf dem Gerät zu verwenden. Die Berücksichtigung der Latenz ist für Echtzeitanwendungen nützlich, die schnelle Reaktionszeiten erfordern. Auch der Durchsatz ist eine Überlegung wert, da er uns die maximale Anzahl an Token angibt, die von einem bestimmten Modell in einer bestimmten Zeit abgetastet werden können. Diese Eigenschaft ist attraktiv, wenn man andere Sprachanwendungen in Betracht zieht, wie z. B. Reinforcement Learning basierend auf menschlichem Feedback (RLHF) oder die Bewertung der Ausgabe von Sprachmodellen (wie in AlphaCode), da es attraktiv ist, in einer bestimmten Zeit eine große Anzahl von Token ausgeben zu können Besonderheit.

Hier untersuchten die Forscher die Inferenzergebnisse des Modells mit Parameter 1B. In Bezug auf die Basislinien werden sie mit dem MQA-Transformer verglichen, der bei der Inferenz deutlich schneller ist als der in der Literatur häufig verwendete Standard-MHA-Transformer. Die von den Forschern verglichenen Modelle sind: i) MQA-Konverter, ii) Hawk und iii) Griffin. Um verschiedene Modelle zu vergleichen, berichten wir über Latenz und Durchsatz.

Wie in Abbildung 4 dargestellt, verglichen die Forscher die Latenz des Modells mit einer Stapelgröße von 16, leerer Vorfüllung und Vorfüllung von 4096 Token.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Abbildung 1(b) vergleicht den maximalen Durchsatz (Tokens/Sekunde) derselben Modelle bei der Abtastung von 512, 1024, 2048 bzw. 4196 Tokens nach leeren Hinweisen.

Lange Kontextmodellierung

In diesem Artikel wird auch die Wirksamkeit von Hawk und Griffin untersucht, die längere Kontexte verwenden, um die Vorhersagen des nächsten Tokens zu verbessern, und ihre Fähigkeit zur Extrapolation während der Inferenz untersucht. Griffins Leistung bei Aufgaben, die Kopier- und Abruffähigkeiten erfordern, wird ebenfalls untersucht, sowohl in Modellen, die für solche Aufgaben trainiert wurden, als auch wenn diese Fähigkeiten mithilfe vorab trainierter Sprachmodelle getestet werden.

Aus der Grafik auf der linken Seite von Abbildung 5 ist ersichtlich, dass sowohl Hawk als auch Griffin innerhalb eines bestimmten maximalen Längenbereichs die Vorhersagefähigkeit des nächsten Tokens in einem längeren Kontext verbessern können und insgesamt in der Lage sind um auf längere Sequenzen (mindestens viermal) als beim Training zu schließen. Insbesondere Griffin schneidet beim Denken sehr gut ab, selbst wenn RoPE in der lokalen Aufmerksamkeitsschicht verwendet wird.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Wie in Abbildung 6 gezeigt, können bei der selektiven Kopieraufgabe alle drei Modelle die Aufgabe perfekt erledigen. Beim Vergleich der Lerngeschwindigkeit bei dieser Aufgabe ist Hawk deutlich langsamer als Transformer, was den Beobachtungen von Jelassi et al. (2024) ähnelt, die herausfanden, dass Mamba bei einer ähnlichen Aufgabe deutlich langsamer lernte. Obwohl Griffin nur eine lokale Aufmerksamkeitsschicht verwendet, wird seine Lerngeschwindigkeit interessanterweise kaum verlangsamt und liegt auf dem gleichen Niveau wie die Lerngeschwindigkeit von Transformer.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Für weitere Einzelheiten lesen Sie bitte das Originalpapier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn