Heim >Technologie-Peripheriegeräte >KI >Linearisierende Aufmerksamkeit

Linearisierende Aufmerksamkeit

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2025-02-25 19:10:11110Durchsuche

Große Sprachmodelle (LLMs) Excel, aber ihr Softmax -Aufmerksamkeitsmechanismus zeigt einen rechnerischen Engpass. In diesem Artikel werden Alternativen untersucht, um eine lineare Zeitkomplexität zu erreichen.

Aufmerksamkeitsgrundlagen

Mit LLMs wie ChatGPT und Transformers vertraut wir uns auf die Aufmerksamkeit, den Kern dieser Modelle. Im Gegensatz zu RNNs, die vergangene Zustände in einen versteckten Vektor komprimieren, ruft die Aufmerksamkeit selektiv relevante Daten für jede neue Abfrage ab. Transformatoren verwenden Schlüssel (k), Abfrage (q) und Wert (v) Einbettungen. Der Aufmerksamkeitsmechanismus entspricht Abfragen gegen Schlüssel, um Werte abzurufen:

Linearizing Attention Softmax konvertiert Ähnlichkeitswerte in Wahrscheinlichkeiten, ähnlich wie bei K-Nearest-Nachbarn.

Die Berechnungskosten einer einzelnen Aufmerksamkeitsschicht betragen:

Linearizing Attention Die quadratische Komplexität (O (n²)) von Softmax wird für lange Sequenzen (N & gt; & gt; 100k) unerschwinglich.

lineare Aufmerksamkeit: Eine Lösung?

lineare Aufmerksamkeit, die von Katharopoulos et al. Vorgeschlagen wurde, schreibt das Softmax -Exponential als Kernelfunktion geschickt um und ermöglicht eine lineare Berechnung. Die Transformation ist unten dargestellt:

Linearizing Attention Die elu(x) 1 -Funktion nähert sich dem Exponential. Die Rechenkosten werden:

Linearizing Attention Dies ist linear (o (nd²)), wenn n & gt; & gt; & gt; D, ein gemeinsames Szenario in LLMs. Eine wiederkehrende Ansicht ist:

Linearizing Attention Die Untrennbarkeit von SoftMax verhindert diese Linearisierung. Während der Dekodierung muss nur S (n-1) verfolgt werden, was zu O (d²) pro Token führt. Die feste Größe s (n-1) begrenzt die Kontextretention.

Gated Lineare Aufmerksamkeit: Strategisches Gedächtnis

Die lineare Aufmerksamkeitsaufmerksamkeit befasst sich mit der Speicherbeschränkung, indem sie selektiv Informationen behalten. Die Schlüsseländerung liegt in der Formulierung von S_N:

Linearizing Attention Es gibt verschiedene Gating -Funktionen (g), die jeweils zu verschiedenen Modellen führen:

Linearizing Attention Die Abhängigkeit der Gating -Funktion nur vom aktuellen Token ermöglicht eine effiziente parallele Verarbeitung.

Zustandsraummodelle: Ein Faltungsansatz

State Space Models (SSMs) bieten eine andere Perspektive, in der Sequenzen wie CNNS -Prozessbilder behandelt werden. Das Modell ist ein diskretes lineares zeitinvariantes System:

Linearizing Attention Dies bezieht sich auf die Faltung als:

Linearizing Attention H3 verwendet zwei komplementäre SSM -Schichten:

Linearizing Attention

selektive Zustandsraummodelle: datenabhängige Dynamik

Die festgelegte Parameter von

ssms begrenzen die Anpassungsfähigkeit. Selektive SSMS adressiert dies, indem die systemdatenabhängigen:

Linearizing Attention mamba verwendet selektive SSMs mit Ausgangsgating und Faltung:

Linearizing Attention

Schlussfolgerung

Dieser Artikel zeigt die Entwicklung einer effizienten Sequenzmodellierung und zeigt den Kompromiss zwischen Recheneffizienz und Speicherkapazität. Die quadratische Komplexität von Softmax steht im Gegensatz zur Effizienz der linearen Aufmerksamkeit, aber das begrenzte Gedächtnis des letzteren führt zu einer linearen Aufmerksamkeit und SSMs. Der Fortschreiten in Richtung datenabhängiger Modelle (Gated Linear Achtung und selektives SSM) unterstreicht die Bedeutung der Anpassungsinformationsbindung. Weitere Lektüre werden in den zitierten Papieren vorgeschlagen.

Referenzen:

Katharopoulos et al. (2020) , Yang et al. (2023) , Fu et al. (2022) , Gu & Dao (2023) , Waleffe et al. (2024) . (Hinweis: Vollständige Zitate sind für die Kürze weggelassen, sind jedoch im ursprünglichen Eingang erhältlich.)

Bestätigung: (Bestätigungsabschnitt bleibt unverändert.)

Das obige ist der detaillierte Inhalt vonLinearisierende Aufmerksamkeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for Token function this input chatgpt excel Papers

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Linearisierende LamaNächster Artikel：Linearisierende Lama

In Verbindung stehende Artikel

Mehr sehen