Heim >Technologie-Peripheriegeräte >KI >Nvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Größe eine bessere Leistung zu erzielen
Der Aufstieg kleiner Modelle.
Letzten Monat veröffentlichte Meta die Modellreihe Llama 3.1, zu der Metas bisher größtes 405B-Modell sowie zwei kleinere Modelle mit 70 Milliarden bzw. 8 Milliarden Parametern gehören.
Llama 3.1 gilt als der Beginn einer neuen Ära von Open Source. Obwohl die Modelle der neuen Generation leistungsstark sind, erfordern sie bei der Bereitstellung immer noch große Mengen an Rechenressourcen.
Daher hat sich in der Branche ein weiterer Trend herausgebildet, der darin besteht, kleine Sprachmodelle (SLM) zu entwickeln, die bei vielen Sprachaufgaben eine ausreichende Leistung erbringen und zudem sehr kostengünstig bereitzustellen sind.
Kürzlich zeigen Untersuchungen von NVIDIA, dass durch strukturierte Gewichtsbereinigung in Kombination mit Wissensdestillation nach und nach kleinere Sprachmodelle aus einem zunächst größeren Modell gewonnen werden können. Auch M Yann Lecun, der Gewinner des Turing Award und Chef-KI-Wissenschaftler von Meta, lobte die Forschung.
Nach der Beschneidung und Destillation hat das NVIDIA-Forschungsteam Llama 3.1 8B zu Llama-3.1-Minitron 4B verfeinert und als Open Source bereitgestellt. Dies ist Nvidias erste Veröffentlichung in der Open-Source-Reihe Llama 3.1.Llama-3.1-Minitron 4B übertrifft modernste Open-Source-Modelle ähnlicher Größe, darunter Minitron 4B, Phi-2 2.7B, Gemma2 2.6B und Qwen2-1.5B.
Das relevante Papier dieser Forschung wurde bereits letzten Monat veröffentlicht. 🔜
Beschneiden Macht das Modell kleiner und schlanker und kann durch Entfernen von Schichten (Tiefenbeschneidung) oder Entfernen von Neuronen und Aufmerksamkeitsköpfen und Einbetten von Kanälen (Breitenbeschneidung) erreicht werden. Mit dem Beschneiden geht in der Regel ein gewisses Maß an Umschulung einher, um die Genauigkeit wiederherzustellen. Modelldestillation ist eine Technik zur Wissensübertragung von einem großen komplexen Modell (oft als Lehrermodell bezeichnet) auf ein kleineres, einfacheres Schülermodell. Das Ziel besteht darin, ein effizienteres Modell zu erstellen, das einen Großteil der Vorhersagekraft des ursprünglichen größeren Modells beibehält, gleichzeitig schneller läuft und weniger Ressourcen verbraucht.NVIDIA verwendet eine Methode, die Bereinigung und klassische Wissensdestillation kombiniert, um große Modelle zu erstellen. Die folgende Abbildung zeigt den Bereinigungs- und Destillationsprozess eines einzelnen Modells (oben) und die Kette der Modellbereinigung und -destillation (unten). Der spezifische Prozess ist wie folgt:
Umschulung mittels klassischer Wissensdestillation
Abbildung 2 unten zeigt den Destillationsprozess, bei dem das N-Schicht-Schülermodell (das beschnittene Modell) aus dem M-Schicht-Lehrermodell (dem ursprünglichen, nicht beschnittenen Modell) destilliert wird. Das Schülermodell wird durch Minimierung einer Kombination aus Einbettungsausgangsverlusten, Logit-Verlusten und Transformer-Encoder-spezifischen Verlusten erlernt, die den Schülerblöcken S und den Lehrerblöcken T zugeordnet sind. Abbildung 2: Verlust des Destillationstrainings.
Best Practices für Beschneidung und DestillationNVIDIA-Bereinigung und Wissensdestillation basierend auf einem kompakten Sprachmodell. Basierend auf Aufgrund meiner umfangreichen Ablationsforschung habe ich meine Lernergebnisse in den folgenden Best Practices für die strukturierte Komprimierung zusammengefasst.
Die erste besteht darin, die Größe anzupassen.Um eine Reihe von LLMs zu trainieren, wird das größte zuerst trainiert und dann iterativ beschnitten und destilliert, um kleinere LLMs zu erhalten. Wenn eine mehrstufige Trainingsstrategie zum Trainieren des größten Modells verwendet wird, ist es am besten, das in der letzten Trainingsphase erhaltene Modell zu beschneiden und neu zu trainieren.
#🎜🎜 ##🎜 🎜# Lehrer-Feinabstimmung
Nur TiefenbeschnittUm von 8B auf 4B zu reduzieren, hat NVIDIA 16 Ebenen (50 %) beschnitten. Sie bewerten zunächst die Bedeutung jeder Schicht oder Gruppe aufeinanderfolgender Unterschichten, indem sie sie aus dem Modell entfernen, und beobachten einen Anstieg des LM-Verlusts oder eine Abnahme der Genauigkeit bei nachgelagerten Aufgaben.
Allerdings stellt NVIDIA fest, dass dieser LM-Verlust nicht unbedingt direkt mit der Downstream-Leistung zusammenhängt.
Abbildung 6 unten zeigt die Winogrande-Genauigkeit jedes beschnittenen Modells. Dies zeigt, dass es am besten ist, die 16. bis 31. Schicht zu löschen, wobei die 31. Schicht die vorletzte Schicht ist, 5 des beschnittenen Modells -Schuss Die Genauigkeit ist deutlich höher als die Zufallsgenauigkeit (0,5). Nvidia hat diese Erkenntnis übernommen und die Schichten 16 bis 31 entfernt.
Nur Breitenbeschneidung
NVIDIA beschneidet Einbettung (versteckt) und MLP entlang der Breitenachse. Zwischenabmessungen um Llama 3.1 8B zu komprimieren. Insbesondere verwenden sie die zuvor beschriebene aktivierungsbasierte Strategie, um Wichtigkeitswerte für jeden Aufmerksamkeitskopf, jeden Einbettungskanal und jede versteckte MLP-Dimension zu berechnen. Nach der Wichtigkeitsschätzung entschied sich NVIDIA
, um die mittlere MLP-Dimension von 14336 auf 9216 zu beschneiden.Achten Sie erneut auf die Anzahl der Köpfe und die Anzahl der Schichten. Es ist erwähnenswert, dass nach dem Einzelprobenschnitt der LM-Verlust beim Breitenschnitt höher ist als beim Tiefenschnitt. Nach einer kurzen Umschulungsphase kehrte sich der Trend jedoch um. Genauigkeitsbenchmark NVIDIA hat das Modell anhand der folgenden Parameter destilliert: Spitzenlernrate = 1e-4 Minimale Lernrate = 1e-5 40 Schritte linear Tabelle 1: Genauigkeitsvergleich des Minitron 4B-Basismodells im Vergleich zu Basismodellen ähnlicher Größe. Tabelle 2: Accurac Y-Vergleich des ausgerichteten Minitron 4B-Basismodells mit ausgerichteten Modellen ähnlicher Größe. Leistungsbenchmarks 80 GB GPU. Fazit Referenzlinks: https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b -Modell/
Tabelle 1 unten zeigt die Llama-3.1-Minitron 4B-Modellvarianten (Breitenbeschneidung und Tiefenbeschneidung), die dem ursprünglichen Llama 3.1 8B-Modell ähneln, andere Leistungsvergleiche von großen und kleinen Modellen anhand von Benchmarks über mehrere Domänen hinweg. Insgesamt bestätigte NVIDIA erneut die Wirksamkeit einer umfassenden Pruning-Strategie im Vergleich zu einem tiefen Pruning, das Best Practices folgt.
Das obige ist der detaillierte Inhalt vonNvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Größe eine bessere Leistung zu erzielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!