Heim >Technologie-Peripheriegeräte >KI >Linearisierende Lama
In diesem Artikel wird das Ersetzen von Softmax-Selbstbesprechung im LAMA-3.2-1B-Sprachmodell durch einen hybriden Ansatz ersetzt, der Softmax-Gleitfenster und lineare Aufmerksamkeit kombiniert. Dies zielt darauf ab, die Inferenzgeschwindigkeit ohne signifikanten Genauigkeitsverlust zu verbessern und die Kosten für die Verwendung von Großsprachmodellen zu verringern.
Das Projekt basiert auf den Forschungen in "LOLCATS: Über linearisierende große Sprachmodelle mit niedrigem Rang", "eine empirische Untersuchung von Sprachmodellen auf Mamba-basierten Sprachmodellen" und "linearisierende Aufmerksamkeit". Es konzentriert sich darauf, 50% der Selbstbekämpfungsschichten in einem vorgeborenen Lama-Modell zu ersetzen.
Der Prozess ist in vier Teile unterteilt:
hybride Aufmerksamkeitsblock: In diesem Abschnitt wird die Erstellung eines benutzerdefinierten Aufmerksamkeitsblocks beschrieben, der das Schiebenfenster und die linearen Aufmerksamkeitsmechanismen kombiniert, wobei er lernbare Faktoren verwendet, um ihre Beiträge auszugleichen. Der Ansatz des Schiebungsfensters beschränkt die Aufmerksamkeit auf eine bestimmte Fenstergröße und verbessert die Effizienz. Lineare Aufmerksamkeit, die auf frühere Token angewendet wird, optimiert die Berechnung weiter.
Aufmerksamkeitstransfer: Diese Stufe nutzt die "lolcats" -Methodik. Die Gewichte aus den ursprünglichen Lama -Aufmerksamkeitsblöcken werden verwendet, um die Hybridblöcke zu initialisieren. Das Training beinhaltet einen Vorwärtspass mit einem Trainingseingang, berechnet den MSE-Verlust zwischen den ursprünglichen und hybriden Blockausgängen und fein die Hybridblöcke, um das Verhalten des Originals nachzuahmen.
lora feretuning: niedrige Anpassung (LORA) wird verwendet, um die hybriden Aufmerksamkeitsblöcke innerhalb des größeren LLAMA-Modells zu optimieren. In diesem Schritt konzentriert
Evaluierung: Die Leistung des Hybridmodells wird gegen das ursprüngliche Lama-3.2-1b-Modell bewertet. Benchmarking konzentriert sich auf Inferenzgeschwindigkeit (Token pro Sekunde und Sekunden pro Token) und Genauigkeit (unter Verwendung des MMLU -Benchmarks).
Die Schlussfolgerung betont das Potenzial von hybriden Aufmerksamkeitsmechanismen als kostengünstiger Ansatz zur Verbesserung der LLM-Inferenzgeschwindigkeit. In der Studie wird auch die Notwendigkeit einer weiteren Optimierung der linearen Aufmerksamkeitsarchitekturen und der Bedeutung der Berücksichtigung von Hardwarebeschränkungen bei der Bewertung der Modellleistung festgestellt. Der Code für dieses Projekt ist unter linearisierend-llama-3.2-1b
verfügbarLizenzreferenzen:
[1] feinweb-edu: odc-by v1.0 [2] Dolly-15K: CC BY-SA 3.0 [3] MMLU: MIT -Lizenz
Das obige ist der detaillierte Inhalt vonLinearisierende Lama. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!