Heim >Technologie-Peripheriegeräte >KI >Linearisierende Lama

Linearisierende Lama

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal
2025-02-25 18:38:08169Durchsuche

In diesem Artikel wird das Ersetzen von Softmax-Selbstbesprechung im LAMA-3.2-1B-Sprachmodell durch einen hybriden Ansatz ersetzt, der Softmax-Gleitfenster und lineare Aufmerksamkeit kombiniert. Dies zielt darauf ab, die Inferenzgeschwindigkeit ohne signifikanten Genauigkeitsverlust zu verbessern und die Kosten für die Verwendung von Großsprachmodellen zu verringern.

Das Projekt basiert auf den Forschungen in "LOLCATS: Über linearisierende große Sprachmodelle mit niedrigem Rang", "eine empirische Untersuchung von Sprachmodellen auf Mamba-basierten Sprachmodellen" und "linearisierende Aufmerksamkeit". Es konzentriert sich darauf, 50% der Selbstbekämpfungsschichten in einem vorgeborenen Lama-Modell zu ersetzen.

Der Prozess ist in vier Teile unterteilt:

  • hybride Aufmerksamkeitsblock: In diesem Abschnitt wird die Erstellung eines benutzerdefinierten Aufmerksamkeitsblocks beschrieben, der das Schiebenfenster und die linearen Aufmerksamkeitsmechanismen kombiniert, wobei er lernbare Faktoren verwendet, um ihre Beiträge auszugleichen. Der Ansatz des Schiebungsfensters beschränkt die Aufmerksamkeit auf eine bestimmte Fenstergröße und verbessert die Effizienz. Lineare Aufmerksamkeit, die auf frühere Token angewendet wird, optimiert die Berechnung weiter.

  • Aufmerksamkeitstransfer: Diese Stufe nutzt die "lolcats" -Methodik. Die Gewichte aus den ursprünglichen Lama -Aufmerksamkeitsblöcken werden verwendet, um die Hybridblöcke zu initialisieren. Das Training beinhaltet einen Vorwärtspass mit einem Trainingseingang, berechnet den MSE-Verlust zwischen den ursprünglichen und hybriden Blockausgängen und fein die Hybridblöcke, um das Verhalten des Originals nachzuahmen.

  • lora feretuning: niedrige Anpassung (LORA) wird verwendet, um die hybriden Aufmerksamkeitsblöcke innerhalb des größeren LLAMA-Modells zu optimieren. In diesem Schritt konzentriert

  • Evaluierung: Die Leistung des Hybridmodells wird gegen das ursprüngliche Lama-3.2-1b-Modell bewertet. Benchmarking konzentriert sich auf Inferenzgeschwindigkeit (Token pro Sekunde und Sekunden pro Token) und Genauigkeit (unter Verwendung des MMLU -Benchmarks).

Linearizing Llama

Die Ergebnisse zeigen, dass das Hybridmodell signifikante Geschwindigkeitsverbesserungen bietet, insbesondere für längere Sequenzen, und gleichzeitig eine vergleichbare Genauigkeit des MMLU -Benchmarks beibehalten. Die Studie unterstreicht jedoch auch die signifikanten Auswirkungen der GPU -Hardware sowohl auf Geschwindigkeit als auch auf die Genauigkeitsmessungen. Weitere Untersuchungen werden vorgeschlagen, um die Auswirkungen verschiedener Hardware auf Benchmarkergebnisse zu untersuchen.

Linearizing Llama

Linearizing Llama

Linearizing Llama

Die Schlussfolgerung betont das Potenzial von hybriden Aufmerksamkeitsmechanismen als kostengünstiger Ansatz zur Verbesserung der LLM-Inferenzgeschwindigkeit. In der Studie wird auch die Notwendigkeit einer weiteren Optimierung der linearen Aufmerksamkeitsarchitekturen und der Bedeutung der Berücksichtigung von Hardwarebeschränkungen bei der Bewertung der Modellleistung festgestellt. Der Code für dieses Projekt ist unter linearisierend-llama-3.2-1b

verfügbar

Lizenzreferenzen:

[1] feinweb-edu: odc-by v1.0 [2] Dolly-15K: CC BY-SA 3.0 [3] MMLU: MIT -Lizenz

Das obige ist der detaillierte Inhalt vonLinearisierende Lama. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn