Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

WBOY
WBOYOriginal
2024-06-10 20:18:19774Durchsuche

Verbessern Sie den Kernmechanismus von Transformer zum Fokussieren, sodass kleine Modelle doppelt so groß gemacht werden können!

Im ICML+2024-Highscore-Papier hat das Caiyun Technology-Team das DCFormer-Framework als Ersatz für das Transformer-Kernkomponenten-Aufmerksamkeitsmodul (MHA) entwickelt und die dynamisch kombinierbare Multi-Head-Aufmerksamkeit (DCMHA) vorgeschlagen.

DCMHA entfernt die feste Bindung der Suchauswahlschleife und der Transformationsschleife des MHA-Aufmerksamkeitskopfes, sodass sie basierend auf der Eingabe dynamisch kombiniert werden können, was die Ausdrucksfähigkeit des Modells grundlegend verbessert.

Die ursprüngliche Bedeutung besteht darin, dass jede Schicht feste H-Aufmerksamkeitsköpfe hat. Jetzt kann sie im Grunde so verstanden werden, dass jede Schicht fast die gleiche Menge an Parametern und Rechenleistung hat HxH Aufmerksamkeitsköpfe. Der fein abgestimmte Inhalt kann die Bedeutung des Originaltextes wie folgt klarer zum Ausdruck bringen: Jede Schicht des Originalmodells enthält eine feste Anzahl von H-Aufmerksamkeitsköpfen. Jetzt können wir

DCMHA Plug-and-Play verwenden, um MHA in jeder Transformer-Architektur zu ersetzen, um einen neuen Architektur-DCFormer zu erhalten, der vielseitig, effizient und skalierbar ist.

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

Diese Arbeit wurde gemeinsam von Forschern der Universität für Post und Telekommunikation Peking und dem KI-Startup Caiyun Technology durchgeführt.

Das von den Forschern auf Basis von DCFormer erstellte Modell DCPythia-6.9B ist hinsichtlich der Verwirrung vor dem Training und der nachgelagerten Aufgabenbewertung besser als das Open-Source-Modell Pythia-12B.

Das DCFormer-Modell ist in seiner Leistung mit den Transformer-Modellen vergleichbar, die 1,7-2 Mal mehr Berechnungen erfordern.

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

Was sind die Einschränkungen des Multi-Head-Aufmerksamkeitsmoduls?

Das Skalierungsgesetz großer Modelle besagt, dass das Modell mit zunehmender Rechenleistung größer wird und über mehr Daten verfügt und der Modelleffekt immer besser wird. Obwohl niemand eindeutig erklären kann, wie hoch die Obergrenze dieser Straße ist und ob sie AGI erreichen kann, ist dies derzeit tatsächlich der gängigste Ansatz.

Aber darüber hinaus lohnt es sich, über eine andere Frage nachzudenken: Die meisten aktuellen großen Modelle basieren auf Transformer. Sie werden einzeln aus Transformer-Bausteinen aufgebaut. Als Baustein dient der Transformer selbst. und Wie viel Raum für Verbesserungen gibt es?

Dies ist die grundlegende Frage, die in der Modellstrukturforschung beantwortet werden muss, und sie ist auch der Ausgangspunkt der DCFormer-Arbeit, die gemeinsam von Caiyun Technology und der Beijing University of Posts and Telecommunications durchgeführt wurde.

Im Multi-Head-Aufmerksamkeitsmodul (MHA) von Transformer arbeitet jeder Aufmerksamkeitskopf völlig unabhängig voneinander.

Dieses Design hat sich in der Praxis aufgrund seiner Einfachheit und einfachen Implementierung als sehr erfolgreich erwiesen, führt jedoch auch zu einem niedrigen Rang der Aufmerksamkeits-Score-Matrix, was die Ausdrucksfähigkeit schwächt, und die wiederholte Redundanz der Aufmerksamkeitskopffunktion verschwendet Parameter und Berechnungen und andere Nachteile. Auf dieser Grundlage haben einige Forschungsarbeiten in den letzten Jahren versucht, eine Form der Interaktion zwischen Aufmerksamkeitsköpfen einzuführen.

Gemäß der Transformer-Loop-Theorie wird in MHA das Verhalten jedes Aufmerksamkeitskopfes durch vier Gewichtsmatrizen WQ, WK, WV, WO (wobei WO erhalten durch) beschrieben Segmentierung der Ausgabeprojektionsmatrix von MHA).

Unter diesen wird W

QWK als QK-Schleife (oder Suchauswahlschleife) bezeichnet, die bestimmt, auf welches (einige) Token im Kontext vom aktuellen Token aus der Fokus gelegt werden soll, zum Beispiel:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

W

OWV wird OV-Schleife (oder Projektionstransformationsschleife) genannt, die bestimmt, welche Informationen aus dem betreffenden Token (oder welche Attribute projiziert werden sollen) abgerufen werden sollen Schreiben Sie an der aktuellen Position in den Reststrom und sagen Sie dann das nächste Token voraus. Zum Beispiel:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

Forscher haben festgestellt, dass Suche (wo man bekommt) und Transformation (was man bekommt) ursprünglich zwei unabhängige Dinge sind, die separat angegeben und nach Bedarf frei kombiniert werden sollten (genau wie bei SQL-Abfragen). Die Auswahl Bedingungen nach WHERE und die Attributprojektion nach SELECT werden separat geschrieben), MHA erzwingt, dass sie in QKOV mit einem Aufmerksamkeitskopf „gebündelt“ werden, was die Flexibilität und Ausdrucksmöglichkeiten einschränkt.

Angenommen, es gibt ein Modell mit den Aufmerksamkeitsköpfen A, B und C, dessen QK- und OV-Schleifen das obige Beispiel vervollständigen können =, dann ersetzen Sie es durch:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

Sie müssen kreuzen- Wenn Sie die vorhandenen QK- und OV-Schleifen der Aufmerksamkeitsköpfe kombinieren, ist das Modell möglicherweise „nicht in der Lage, sich umzudrehen“ (überprüft durch den vom System des Forschers erstellten synthetischen Testsatz). Das kleine und mittlere Modell

Wie sieht die dynamische Kombination langer Aufmerksamkeit aus?

Mit diesem Ausgangspunkt führte das Forschungsteam dieses Artikels die Komponierungsoperation in MHA ein:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

Wie in der Abbildung unten gezeigt, wird DCMHA erhalten:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△Abbildung 1. Die Die Gesamtstruktur von DCMHA

wird QWQ. Die durch und KWK berechnete Aufmerksamkeitsbewertungsmatrix AS und die Aufmerksamkeitsgewichtsmatrix AW werden linear auf die Dimension num_heads abgebildet, um zuvor eine neue Matrix A' zu erhalten wird mit VWV durch verschiedene lineare Mapping-Matrizen (Kompositionskarte) multipliziert, um die Effekte verschiedener Aufmerksamkeitskopfkombinationen zu erzielen.

In Abbildung 2(c) werden beispielsweise die QK-Schleifen der Köpfe 3 und 7 mit der OV-Schleife von Kopf 1 kombiniert, um einen „neuen“ Aufmerksamkeitskopf zu bilden.

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△ Abbildung 2. Vereinfachte typische Kompositionskartenfunktionen von 8 Aufmerksamkeitsköpfen, helle Farben stellen große Werte dar

Um die Ausdrucksmöglichkeiten zu maximieren, hoffen die Forscher, dass die Zuordnungsmatrix dynamisch gesteuert wird die Eingabe generieren , also dynamisch bestimmen, wie die Aufmerksamkeitsköpfe kombiniert werden.

Aber die Zuordnungsmatrix, die sie generieren möchten, ist nicht eine, sondern eine solche Matrix muss für jedes Abfragepaar Qi an der Quellposition und den Schlüssel Kj an der Zielposition in der Sequenz generiert werden, was erforderlich ist Sowohl der Rechenaufwand als auch die Speichernutzung werden schwer zu akzeptieren sein.

Zu diesem Zweck zerlegen sie die Mapping-Matrix weiter in die Summe einer eingabeunabhängigen statischen Matrix Wb, einer Low-Rank-Matrix w1w2 und einer Diagonalmatrix Diag(wg ), Sie sind jeweils verantwortlich für Grundkombinationen, dynamische Kombinationen auf begrenzte Weise (d. h. Rang R zwischen Aufmerksamkeitsköpfen und dynamisches Gating der Köpfe selbst (siehe Abbildung 2 (d) und Abbildung 3 (b). )) . Die beiden letztgenannten Matrizen werden dynamisch durch die Q-Matrix und die K-Matrix generiert.

Reduzieren Sie die Berechnungs- und Parameterkomplexität auf ein nahezu vernachlässigbares Maß, ohne die Wirkung zu beeinträchtigen (Einzelheiten finden Sie in der Komplexitätsanalyse im Dokument). In Kombination mit der Optimierung auf JAX- und PyTorch-Implementierungsebene kann DCFormer effizient trainieren und ableiten.

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△Abbildung 3. Wie erfolgt die Berechnung

von Compose?

Skalenerweiterung

Um die Qualität einer Architektur zu bewerten, ist der zentrale Indikator, auf den sich Forscher konzentrieren, die Effizienz der Umwandlung von Rechenleistung in Intelligenz (oder das Leistungs-Rechenleistungsverhältnis), also die erreichbare Modellleistung durch Investition in Rechenleistung pro Einheit. Verbesserung – weniger Rechenleistung verbrauchen und bessere Modelle erhalten.

Dies ist aus den Skalierungsgesetzkurven in Abbildung 4 und Abbildung 5 ersichtlich (in logarithmischen Koordinaten kann der Verlust jeder Modellarchitektur als ungefähre gerade Linie gezeichnet werden, wenn sich die Rechenleistung ändert. Je geringer der Verlust, desto besser Das Modell) DCFormer kann den Effekt des Transformer-Modells mit der 1,7- bis 2-fachen Rechenleistung erzielen, dh die intelligente Konvertierungsrate der Rechenleistung wird um das 1,7- bis 2-fache erhöht.

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△Abbildung 4. Skalenerweiterungseffekt von Transformer und DCFormer
ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△Abbildung 5. Skalenerweiterungseffekt von Pythia und DCPythia

Wie ist diese Verbesserung zu verstehen?

Seit der Geburt von Transformer im Jahr 2017 sind GLU MLP und Rotationspositionskodierung RoPE im Hinblick auf die Verbesserung der Leistung und des Rechenleistungsverhältnisses zwei der wenigen Architekturverbesserungen, die sich als universell wirksam erwiesen und in großem Umfang angenommen haben Anzahl der Praxen.

Die Architektur, die diese beiden Verbesserungen zum ursprünglichen Transformer hinzufügt, wird auch Transformer++ genannt. Die stärksten Open-Source-Modelle wie Llama und Mistral verwenden alle diese Architektur. Unabhängig von der Transformer- oder Transformer++-Architektur können durch DCMHA erhebliche Verbesserungen erzielt werden.

Bei der 1,4B-Modellskala ist die Verbesserung von DCMHA größer als die Summe der beiden Verbesserungen von Transformer++ und die Skalierbarkeit ist besser (im Vergleich der blaugrünen Linie und der schwarzen Linie in Abbildung 4 schwächt sich die Verbesserung von DCMHA ab da die Rechenleistung langsamer zunimmt, und Vergleich von Abbildung 4 und Abbildung 5).

Man kann sagen, dass DCFormer die Fähigkeiten von Transformer auf ein neues Niveau hebt.

Downstream-Aufgabenbewertung

Das Forschungsteam trainierte zwei Modelle, DCPythia-2.8B und DCPythia-6.9B, zur Bewertung von Mainstream-NLP-Downstream-Aufgaben und verglich sie mit dem Open-Source-Modell Pythia derselben Skala (das Training verwendet dasselbe Hyperparameter als Pythia-Einstellungen) .

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
△Tabelle 1. Leistung von DCFormer und Pythia in Downstream-Aufgaben

Wie aus Tabelle 1 ersichtlich ist, haben DCPythia-2.8B und 6.9B nicht nur niedrigere PPL im Pile-Validierungssatz, sondern auch niedrigere PPL Bei den meisten Downstream-Aufgaben übertrifft es Pythia deutlich. Die durchschnittliche Genauigkeit von DCPythia6.9B bei PPL- und Downstream-Aufgaben übertrifft sogar Pythia-12B.

DCFormer++2.8B wurde im Vergleich zu DCPythia-2.8B weiter verbessert, was die Wirksamkeit der Kombination aus DCMHA- und Lllama-Architektur bestätigt.

Trainings- und Inferenzgeschwindigkeit

Obwohl die Einführung von DCMHA zusätzlichen Trainings- und Inferenzaufwand mit sich bringt, ist aus Tabelle 2 ersichtlich, dass die Trainingsgeschwindigkeit von DCFormer++ 74,5 % bis 89,2 % von Transformer++ beträgt und die Inferenzgeschwindigkeit 81,1 % beträgt -89,7 %, und mit zunehmenden Modellparametern nimmt der zusätzliche Rechenaufwand allmählich ab. Tabelle 2: Vergleich der Trainings- und Inferenzgeschwindigkeiten zwischen Transformer++ und DCFormer++ Die Eingabelänge beträgt 1024 und die generierte Länge beträgt 128.

AblationsexperimentICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können
Die Ergebnisse sind wie folgt:

△Tabelle 3. Ablationsexperiment von DCMHA

Aus Tabelle 3 können wir die folgenden Punkte erkennen:

ICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen könnenObwohl das Hinzufügen statischer Kombinationsgewichte die Anzahl der Personen reduzieren kann, Die Einführung dynamischer Kombinationsgewichte kann jedoch die Anzahl der Personen weiter reduzieren, was die Notwendigkeit einer dynamischen Kombination verdeutlicht.
Eine dynamische Kombination mit niedrigem Rang bietet eine bessere Leistung als dynamisches Gating.

Die ppl, die nur durch die Verwendung einer abfrage- oder schlüsselweisen dynamischen Kombination erhalten wird, ist sehr ähnlich, und die Lücke zu DCFormer++ ist sehr gering.

    Es ist effektiver, die Aufmerksamkeitskopfkombination nach Softmax durchzuführen als vor Softmax, wahrscheinlich weil die Wahrscheinlichkeit nach Softmax die Ausgabe direkter beeinflussen kann.
  • Der Rang des dynamischen Kombinationsgewichts muss nicht zu groß eingestellt werden, was auch den niedrigen Rang des Kombinationsgewichts verdeutlicht.
  • Darüber hinaus reduzierten die Forscher den Trainings- und Inferenzaufwand weiter, indem sie den Anteil lokaler Aufmerksamkeitsebenen erhöhten und nur abfrageweise dynamische Kombinationen verwendeten. Weitere Informationen finden Sie in Tabelle 10 des Papiers.
  • Generell kommt das Forschungsteam zu zwei Schlussfolgerungen.
  • Über dynamische Gewichte: Aktuelle SSM- und lineare Aufmerksamkeits-/RNN-Arbeiten wie Mamba, GLA, RWKV6, HGRN usw. haben mit Transformer++ gleichgezogen, indem sie dynamische (eingabeabhängige) Gewichte eingeführt haben, aber DCFormer verwendet eine dynamische Kombination von Aufmerksamkeitsköpfen. Die Methode zeigt, dass bei Verwendung von Softmax Attention die Wirkung von Transformer++ durch die Einführung dynamischer Gewichte erheblich verbessert werden kann.
Über Modellarchitekturinnovationen: Diese Arbeit zeigt, dass es wahrscheinlich noch ein weiter Weg ist, wenn es eine „ideale Modellarchitektur“ mit extremer Rechenleistung und intelligenter Transformationseffizienz gibt, obwohl die aktuelle Transformer-Architektur bereits sehr leistungsfähig ist Von dieser idealen Architektur gibt es noch viel Raum für Verbesserungen. Daher birgt die dynamische Entwicklung von Wundern durch Stapeln von Rechenleistung und Daten auch großes Potenzial für Innovationen in der Modellarchitektur.

Das Forschungsteam gab außerdem an, dass Caiyun Technology als erstes Unternehmen DCformer auf seinen Produkten Caiyun Weather, Caiyun Xiaoyi und Caiyun Xiaomeng anwenden wird.

Weitere Forschungsdetails finden Sie im Originalpapier.

Link zum ICML2024-Papier: https://icml.cc/virtual/2024/poster/34047.

Link zum Arxiv-Papier: https://arxiv.org/abs/2405.08553.

Code-Link: https://github.com/Caiyun-AI/DCFormer.

Das obige ist der detaillierte Inhalt vonICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn