Heim >Technologie-Peripheriegeräte >KI >Linearisierende Aufmerksamkeit
Große Sprachmodelle (LLMs) Excel, aber ihr Softmax -Aufmerksamkeitsmechanismus zeigt einen rechnerischen Engpass. In diesem Artikel werden Alternativen untersucht, um eine lineare Zeitkomplexität zu erreichen.
Mit LLMs wie ChatGPT und Transformers vertraut wir uns auf die Aufmerksamkeit, den Kern dieser Modelle. Im Gegensatz zu RNNs, die vergangene Zustände in einen versteckten Vektor komprimieren, ruft die Aufmerksamkeit selektiv relevante Daten für jede neue Abfrage ab. Transformatoren verwenden Schlüssel (k), Abfrage (q) und Wert (v) Einbettungen. Der Aufmerksamkeitsmechanismus entspricht Abfragen gegen Schlüssel, um Werte abzurufen:
Softmax konvertiert Ähnlichkeitswerte in Wahrscheinlichkeiten, ähnlich wie bei K-Nearest-Nachbarn.
Die Berechnungskosten einer einzelnen Aufmerksamkeitsschicht betragen:
Die quadratische Komplexität (O (n²)) von Softmax wird für lange Sequenzen (N & gt; & gt; 100k) unerschwinglich.
lineare Aufmerksamkeit, die von Katharopoulos et al. Vorgeschlagen wurde, schreibt das Softmax -Exponential als Kernelfunktion geschickt um und ermöglicht eine lineare Berechnung. Die Transformation ist unten dargestellt:
Die
elu(x) 1
-Funktion nähert sich dem Exponential. Die Rechenkosten werden:
Dies ist linear (o (nd²)), wenn n & gt; & gt; & gt; D, ein gemeinsames Szenario in LLMs. Eine wiederkehrende Ansicht ist:
Die Untrennbarkeit von SoftMax verhindert diese Linearisierung. Während der Dekodierung muss nur S (n-1) verfolgt werden, was zu O (d²) pro Token führt. Die feste Größe s (n-1) begrenzt die Kontextretention.
Die lineare Aufmerksamkeitsaufmerksamkeit befasst sich mit der Speicherbeschränkung, indem sie selektiv Informationen behalten. Die Schlüsseländerung liegt in der Formulierung von S_N:
Es gibt verschiedene Gating -Funktionen (g), die jeweils zu verschiedenen Modellen führen:
Die Abhängigkeit der Gating -Funktion nur vom aktuellen Token ermöglicht eine effiziente parallele Verarbeitung.
State Space Models (SSMs) bieten eine andere Perspektive, in der Sequenzen wie CNNS -Prozessbilder behandelt werden. Das Modell ist ein diskretes lineares zeitinvariantes System:
Dies bezieht sich auf die Faltung als:
H3 verwendet zwei komplementäre SSM -Schichten:
ssms begrenzen die Anpassungsfähigkeit. Selektive SSMS adressiert dies, indem die systemdatenabhängigen:
mamba verwendet selektive SSMs mit Ausgangsgating und Faltung:
Dieser Artikel zeigt die Entwicklung einer effizienten Sequenzmodellierung und zeigt den Kompromiss zwischen Recheneffizienz und Speicherkapazität. Die quadratische Komplexität von Softmax steht im Gegensatz zur Effizienz der linearen Aufmerksamkeit, aber das begrenzte Gedächtnis des letzteren führt zu einer linearen Aufmerksamkeit und SSMs. Der Fortschreiten in Richtung datenabhängiger Modelle (Gated Linear Achtung und selektives SSM) unterstreicht die Bedeutung der Anpassungsinformationsbindung. Weitere Lektüre werden in den zitierten Papieren vorgeschlagen.
Referenzen:
Katharopoulos et al. (2020) , Yang et al. (2023) , Fu et al. (2022) , Gu & Dao (2023) , Waleffe et al. (2024) . (Hinweis: Vollständige Zitate sind für die Kürze weggelassen, sind jedoch im ursprünglichen Eingang erhältlich.)
Bestätigung: (Bestätigungsabschnitt bleibt unverändert.)
Das obige ist der detaillierte Inhalt vonLinearisierende Aufmerksamkeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!