Heim >Technologie-Peripheriegeräte >KI >Anpassung an große Modelle mit niedrigem Rang

Anpassung an große Modelle mit niedrigem Rang

WBOY
WBOYnach vorne
2024-01-23 21:03:08658Durchsuche

Anpassung an große Modelle mit niedrigem Rang

Die Anpassung großer Modelle mit niedrigem Rang ist eine Methode zur Reduzierung der Komplexität durch Annäherung der hochdimensionalen Struktur großer Modelle an niedrigdimensionale Strukturen. Das Ziel besteht darin, eine kleinere, besser handhabbare Modelldarstellung zu erstellen, die dennoch eine gute Leistung beibehält. Bei vielen Aufgaben kann die hochdimensionale Struktur großer Modelle redundante oder irrelevante Informationen enthalten. Durch die Identifizierung und Beseitigung dieser Redundanzen kann ein effizienteres Modell erstellt werden, das gleichzeitig die ursprüngliche Leistung beibehält und weniger Ressourcen für Schulung und Bereitstellung benötigt.

Low-Rank-Adaption ist eine Methode, die das Training großer Modelle beschleunigen und gleichzeitig den Speicherverbrauch reduzieren kann. Sein Prinzip besteht darin, die Gewichte des vorab trainierten Modells einzufrieren und die trainierbare Rangzerlegungsmatrix in jede Schicht der Transformer-Architektur einzuführen, wodurch die Anzahl der trainierbaren Parameter für nachgelagerte Aufgaben erheblich reduziert wird. Bei dieser Methode wird die ursprüngliche Matrix in das Produkt zweier Matrizen unterschiedlichen Rangs zerlegt. Durch die einfache Verwendung von Matrizen mit niedrigem Rang für die Berechnung können Sie die Anzahl der Modellparameter reduzieren, die Trainingsgeschwindigkeit erhöhen und eine gute Modellqualität erzielen, ohne die Inferenzlatenz zu erhöhen.

Low-Rank-Adaptionsbeispiel

Am Beispiel des GPT-3-Modells ist die Low-Rank-Adaption großer Modelle (LoRA) eine Methode, um einige dichte Schichten in einem neuronalen Netzwerk indirekt zu trainieren, indem die Rangzerlegungsmatrix in optimiert wird dichte Schicht. Der Vorteil von LoRA besteht darin, dass nur einige Parameter fein abgestimmt werden müssen, anstatt das gesamte Modell mit vollständigen Parametern zu trainieren, wodurch die betriebliche Effizienz während der Bereitstellung verbessert wird. Im GPT-3-Modell muss LoRA nur eine Zerlegungsmatrix mit sehr niedrigem Rang optimieren, um eine Leistung zu erzielen, die mit der vollständigen Feinabstimmung der Parameter vergleichbar ist. Diese Methode ist nicht nur hinsichtlich der Speicherung und Berechnung sehr effizient, sondern kann auch Überanpassungsprobleme wirksam reduzieren und die Generalisierungsfähigkeit des Modells verbessern. Durch LoRA können große Modelle flexibler auf verschiedene Szenarien angewendet werden, was mehr Möglichkeiten für die Entwicklung von Deep Learning bietet.

Darüber hinaus ist die Idee der Low-Rank-Anpassung einfach. Dazu wird neben dem ursprünglichen PLM (vorab trainiertes Sprachmodell) ein Bypass hinzugefügt, der eine Dimensionsreduktion und anschließend Dimensionsoperationen durchführt, um die sogenannten intrinsischen Dimensionen zu simulieren. Während des Trainingsprozesses werden die Parameter des PLM festgelegt und nur die Dimensionsreduktionsmatrix A und die Dimensionsverbesserungsmatrix B trainiert. Die Eingabe- und Ausgabedimensionen des Modells bleiben unverändert, die Parameter von BA und PLM werden jedoch der Ausgabe überlagert. Die Dimensionsreduktionsmatrix A wird mit einer zufälligen Gaußschen Verteilung initialisiert, während die Dimensionsverbesserungsmatrix B mit einer 0-Matrix initialisiert wird, wodurch sichergestellt wird, dass die Bypass-Matrix zu Beginn des Trainings immer noch eine 0-Matrix ist.

Diese Idee hat einige Ähnlichkeiten mit der Restverbindung, die den Prozess der vollständigen Feinabstimmung durch die Verwendung von Bypass-Updates simuliert. Tatsächlich kann die vollständige Feinabstimmung als Sonderfall von LoRA angesehen werden, das heißt, wenn r gleich k ist. Das bedeutet, dass wir durch die Anwendung von LoRA auf alle Gewichtsmatrizen und das Training aller Bias-Terme, während wir den Rang r von LoRA auf den Rang k der vorab trainierten Gewichtsmatrix setzen, ungefähr die Ausdruckskraft der vollständigen Feinabstimmung wiederherstellen können. Mit anderen Worten, wenn die Anzahl der trainierbaren Parameter zunimmt, neigt das Training von LoRA dazu, das ursprüngliche Modell zu trainieren, während die adaptorbasierte Methode eher zu einem MLP tendiert und die präfixbasierte Methode eher zu einem Modell tendiert, das lange nicht verarbeiten kann Eingabesequenzen. Daher bietet LoRA eine flexible Möglichkeit, die Anzahl der trainierbaren Parameter und die Ausdruckskraft des Modells in Einklang zu bringen.

Was ist der Unterschied zwischen Low-Rank-Adaption und neuronaler Netzwerkkomprimierung?

Low-Rank-Adaption und neuronale Netzwerkkomprimierung weisen einige Unterschiede in Zielen und Methoden auf.

Das Ziel der Komprimierung neuronaler Netze besteht darin, Parameter und Speicherplatz zu reduzieren, Rechenkosten und Speicheranforderungen zu reduzieren und gleichzeitig die Leistung aufrechtzuerhalten. Zu den Methoden gehören die Änderung der Netzwerkstruktur, Quantisierung und Approximation usw.

Die Komprimierung neuronaler Netze kann in drei Kategorien unterteilt werden: Approximations-, Quantisierungs- und Zuschneidemethoden.

Approximative Methoden verwenden Matrix- oder Tensorzerlegung, um eine kleine Anzahl von Parametern zu rekonstruieren und den Netzwerkspeicheraufwand zu reduzieren.

2) Die Hauptidee der Quantisierungsmethode besteht darin, die möglichen Werte der Netzwerkparameter aus dem reellen Zahlenbereich auf einen endlichen Zahlensatz abzubilden oder die Netzwerkparameter mit weniger Bits darzustellen, um den Netzwerkspeicheraufwand zu reduzieren .

3) Die Clipping-Methode ändert direkt die Struktur des Netzwerks, die je nach Granularität in hierarchisches Clipping, Clipping auf Neuronenebene und Clipping auf neuronaler Verbindungsebene unterteilt werden kann.

Low-Rank-Adaption bezieht sich auf die Reduzierung der Modellkomplexität durch Reduzierung der Dimensionalität der Modellparameter und wird normalerweise mithilfe von Techniken wie der Matrixzerlegung implementiert. Dieser Ansatz wird häufig verwendet, um die Rechenkosten und Speicheranforderungen des Modells zu reduzieren und gleichzeitig die Vorhersagefähigkeiten des Modells beizubehalten.

Im Allgemeinen ist die Komprimierung neuronaler Netze ein umfassenderes Konzept, das mehrere Methoden zur Reduzierung der Parameter und des Speicherplatzes neuronaler Netze umfasst. Die Low-Rank-Adaption ist eine spezielle Technik, die darauf abzielt, die Komplexität großer Modelle durch Approximation mit niedrigdimensionalen Strukturen zu reduzieren.

Das obige ist der detaillierte Inhalt vonAnpassung an große Modelle mit niedrigem Rang. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen