Heim >Technologie-Peripheriegeräte >KI >7B? 13B? 175B? Parameter großer Modelle interpretieren
Große Modelle variieren auch in der Größe und ihre Größe wird an der Anzahl der Parameter gemessen. GPT-3 hat 17,5 Milliarden Parameter und Grok-1 ist mit 31,4 Milliarden Parametern sogar noch beeindruckender. Natürlich gibt es auch schlankere wie Llama, deren Parameterzahl nur zwischen 7 und 70 Milliarden liegt.
Der hier erwähnte 70B bezieht sich möglicherweise nicht auf die Menge der Trainingsdaten, sondern auf die dicht gepackten Parameter im Modell. Diese Parameter sind wie kleine „Gehirnzellen“. Je größer sie sind, desto intelligenter kann das Modell sein und desto besser kann es die komplizierten Zusammenhänge in den Daten verstehen. Mit diesen „Gehirnzellen“ können Modelle bei Aufgaben möglicherweise bessere Leistungen erbringen. Allerdings können diese Parameter, insbesondere bei großmaßstäblichen Modellen, oft Probleme verursachen. Diese „Gehirnzellen“ können bei der Verarbeitung von Aufgaben miteinander interagieren, was es für das Modell schwierig macht, die komplexen Zusammenhänge in den Daten zu verstehen. Mit diesen „Gehirnzellen“ können Modelle bei Aufgaben möglicherweise bessere Leistungen erbringen. Daher müssen wir einen Weg finden, die Beziehung zwischen diesen Parametern bei der Arbeit an der Aufgabe zu verwalten. Eine häufig verwendete Methode ist die Regularisierung. Die Parameter dieser großen Modelle sind wie die „Architekten“ im Modell. Durch komplexe Algorithmen und Trainingsprozesse wird diese riesige Sprachwelt Stück für Stück aufgebaut. Jeder Parameter hat seine Rolle und sie arbeiten zusammen, damit das Modell unsere Sprache genauer verstehen und passendere Antworten geben kann.
Wie setzen sich also die Parameter im großen Modell zusammen? 1. Parameter in großen Modellen „Drähte“ im Netzwerk verbinden jedes Neuron. Sie sind dafür verantwortlich, die „Lautstärke“ der Signalübertragung anzupassen, sodass wichtige Informationen weiter übertragen und weniger wichtige Informationen leiser übertragen werden können. In der vollständig verbundenen Schicht ist die Gewichtsmatrix W beispielsweise eine „Karte“, die uns sagt, welche Eingabemerkmale am engsten mit den Ausgabemerkmalen verknüpft sind.
Vorurteile: Vorurteile sind wie die „kleinen Assistenten“ von Neuronen, die dafür verantwortlich sind, eine Basislinie für die Reaktion von Neuronen festzulegen. Dadurch wissen Neuronen, auf welcher Ebene sie aktiv sein sollen.
Einbettungsmatrizen: Bei der Verarbeitung von Textdaten ist die Einbettungsmatrix das „Wörterbuch“ des Modells. Jede Spalte stellt ein Wort dar und eine Zahl wird zur Darstellung des Wortes verwendet. Auf diese Weise kann das Modell die Bedeutung des Textes verstehen.
Int4: 4-Bit-Ganzzahl, also 0,5 Bytes
Die Inferenzphase wird mit Pre- abgeschlossen. geschulte LLM-Aufgaben wie Texterstellung oder Übersetzung. Hier sind die Speicheranforderungen in der Regel geringer, wobei die wichtigsten Einflussfaktoren folgende sind:
Eingeschränkter Kontext: Inferenz befasst sich normalerweise mit kürzeren Eingabesequenzen und erfordert weniger Speicher zum Speichern von Aktivierungen, die mit kleineren Textblöcken verbunden sind. Keine Backpropagation: Während der Inferenz muss LLM die Zwischenwerte der Backpropagation nicht beibehalten, einer Technik, die für das Training zum Anpassen von Parametern verwendet wird. Dadurch wird viel Speicheraufwand eingespart.2.3 Speicherschätzung großer Transformer-basierter Modelle
Versuchen Sie insbesondere für große Transformer-basierte Modelle, den für das Training erforderlichen Speicher zu berechnen Anzahl der Aufmerksamkeitsköpfe
s: Sequenzlänge
wobei
Modellparameter in Milliarden die Anzahl der Modellparameter in B ist; 18 der Speichernutzungsfaktor verschiedener Komponenten während des Trainings ist;1,25 die erforderliche Speichermenge für den Aktivierungsprozess darstellt Factor,Activation ist eine dynamische Datenstruktur, die sich ändert, wenn das Modell Eingabedaten verarbeitet. GPU-Größe in GB ist die Gesamtmenge des verfügbaren GPU-Speichers
Als praktisches Beispiel: Angenommen, Sie verwenden eine NVIDIA RTX 4090-GPU mit 24 GB VRAM. Berechnen Sie die Anzahl der GPUs, die zum Trainieren des „Llama3 7B“ erforderlich sind 'Modell, ungefähr:Als Schlussfolgerung kann es auf 1/8 bis 1/9 der Trainingsphase vereinfacht werden. Dies sind natürlich nur grobe Schätzungen im allgemeinen Sinne.
Das Verständnis der Zusammensetzung großer Modellparameter und ihrer Anforderungen an Speicher und GPU wird dazu beitragen, die Herausforderungen, denen sich verteiltes Training in der Ingenieurspraxis gegenübersieht, besser zu verstehen.
Der Implementierungsprozess verteilter Trainingsstrategien kann durch die Einführung von Frameworks für verteiltes Training wie TensorFlow oder PyTorch, die umfangreiche Tools und APIs bereitstellen, erheblich vereinfacht werden. Durch die Verwendung von Techniken wie der Gradientenakkumulation vor der Aktualisierung des Modells oder der Verwendung von Techniken wie der Gradientenkomprimierung zur Reduzierung des Datenaustauschs zwischen Knoten können die Kommunikationskosten effektiv gesenkt werden. Es ist wichtig, die optimale Batch-Größe für verteiltes Training zu bestimmen (der oben erwähnte Parameter b); ein zu kleiner b-Wert kann den Kommunikationsaufwand erhöhen, während ein zu großer Wert zu unzureichendem Speicher führen kann.
Die Bedeutung von LLMOps wird immer wichtiger. Die regelmäßige Überwachung der für verteiltes Training konfigurierten Leistungsindikatoren und die Anpassung von Hyperparametern, Partitionierungsstrategien und Kommunikationseinstellungen zur Optimierung der Leistung sind der Schlüssel zur Verbesserung der Trainingseffizienz. Durch die Implementierung eines Checkpointing-Mechanismus für das Modell und eine effiziente Wiederherstellung im Fehlerfall wird sichergestellt, dass der Trainingsprozess fortgesetzt wird, ohne dass bei Null begonnen werden muss.
Mit anderen Worten ist das Training/Inferenz großer Modelle im Wesentlichen eine komplexe technische Herausforderung für verteilte Systemarchitekturen, wie zum Beispiel:
Tatsächlich sind die meisten Ingenieure jedoch möglicherweise nicht direkt an der spezifischen Schulungsarbeit beteiligt, sondern konzentrieren sich darauf, wie die Parameter großer Modelle beim Erstellen von Anwendungen genutzt werden können.
Bilder
Hier konzentrieren wir uns hauptsächlich auf die drei Parameter, die bei Verwendung großer Modelle zur Textausgabe konfiguriert werden können: Temperatur, Top-K und Top-P.
Der Temperaturparameter wird oft als Schalter missverstanden, der nur die Kreativität des Modells steuert, aber tatsächlich besteht seine tiefere Rolle darin, die „Weichheit“ der Wahrscheinlichkeitsverteilung anzupassen. Wenn der Temperaturwert höher eingestellt ist, wird die Wahrscheinlichkeitsverteilung weicher und gleichmäßiger, was das Modell dazu ermutigt, vielfältigere und kreativere Ergebnisse zu generieren. Umgekehrt wird die Verteilung durch niedrigere Temperaturwerte schärfer und weist deutlichere Spitzen auf, wodurch tendenziell eine Ausgabe ähnlich den Trainingsdaten erzeugt wird.
Der Top-K-Parameter wird verwendet, um das Modell so zu begrenzen, dass es bei jedem Schritt die wahrscheinlichsten Top-K-Token ausgibt. Auf diese Weise können inkohärente oder bedeutungslose Inhalte in der Ausgabe reduziert werden. Diese Strategie schafft ein Gleichgewicht zwischen der Aufrechterhaltung der bestmöglichen Konsistenz der Ausgabe und der Ermöglichung eines gewissen Maßes an kreativem Sampling.
Top-P ist eine weitere Decodierungsmethode, die basierend auf dem eingestellten P-Wert (0 ≤ P ≤ 1) einen minimalen Satz von Wörtern auswählt, deren kumulative Wahrscheinlichkeit den P-Wert als Ausgabe überschreitet. Mit dieser Methode kann die Anzahl der ausgewählten Wörter basierend auf der Wahrscheinlichkeitsverteilung des nächsten Wortes dynamisch erhöht oder verringert werden. Insbesondere wenn der P-Wert 1 ist, wählt Top-P alle Wörter aus, was einer Stichprobe aus der gesamten Verteilung entspricht, wodurch eine vielfältigere Ausgabe erzeugt wird, während Top-P nur die Wörter auswählt, wenn der P-Wert 1 ist mit der höchsten Wahrscheinlichkeit, ähnlich wie bei der gierigen Dekodierung, macht die Ausgabe fokussierter und konsistenter.
Diese drei Parameter wirken zusammen und beeinflussen das Verhalten des Modells. Wenn beispielsweise Temperatur = 0,8, Top-K = 36 und Top-P = 0,7 eingestellt sind, berechnet das Modell zunächst die vollständige nicht normalisierte logarithmische Wahrscheinlichkeitsverteilung des gesamten Vokabulars basierend auf dem Kontext. Temperatur = 0,8 bedeutet, dass jede Log-Wahrscheinlichkeit durch 0,8 geteilt wird, was das Vertrauen des Modells in seine Vorhersagen vor der Normalisierung effektiv erhöht. Top-K=36 bedeutet, dass die 36 Marker mit der höchsten Häufigkeitsverhältnis-Log-Wahrscheinlichkeit ausgewählt werden. Dann wendet Top-P=0,7 die Filterung in diesem Top-K=36-Satz an und sortiert so lange von hoher zu niedriger Wahrscheinlichkeit, bis die kumulative Wahrscheinlichkeit 0,7 erreicht. Abschließend wird dieser gefilterte Satz renormiert und im nachfolgenden Sampling-Prozess verwendet.
In der Ingenieurspraxis ist es sinnvoll, die Parameter großer Modelle zu verstehen. Parameter spielen bei großen Modellen eine entscheidende Rolle. Sie definieren das Verhalten, die Leistung, die Implementierungskosten und den Ressourcenbedarf großer Modelle. Um die Parameter eines großen Modells im Ingenieurwesen zu verstehen, muss man die Beziehung zwischen der Komplexität, Leistung und den Fähigkeiten des Modells verstehen. Durch die richtige Konfiguration und Optimierung dieser Parameter aus Sicht der Speicherung und Datenverarbeitung können Modelle in praktischen Anwendungen besser ausgewählt und optimiert werden, um sie an unterschiedliche Aufgabenanforderungen und Ressourcenbeschränkungen anzupassen.
【Referenz】
Das obige ist der detaillierte Inhalt von7B? 13B? 175B? Parameter großer Modelle interpretieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!