Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ICML 2024 |. Durch die Abkehr von der LoRA-Architektur werden die Trainingsparameter stark reduziert und eine neue Art der Fourier-Feinabstimmung kommt

ICML 2024 |. Durch die Abkehr von der LoRA-Architektur werden die Trainingsparameter stark reduziert und eine neue Art der Fourier-Feinabstimmung kommt

王林
王林Original
2024-06-10 17:58:011065Durchsuche
ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Feinabstimmung)
Der Artikel „Parametereffiziente Feinabstimmung mit diskreter Fourier-Transformation“,
Dieser Artikel wurde von ICML 2024 akzeptiert und der Code ist Open Source.

Papieradresse: https://arxiv.org/abs/2405.03003
Projektadresse: https://github.com/Chaos96/fourierft

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

  • Hintergrund
Groß angelegte Basismodelle haben bemerkenswerte Erfolge in den Bereichen Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) erzielt. Die Feinabstimmung groß angelegter Basismodelle, um sie für spezielle nachgelagerte Aufgaben besser geeignet zu machen, ist zu einem beliebten Forschungsthema geworden. Da die Modelle jedoch immer größer werden und nachgelagerte Aufgaben immer vielfältiger werden, ist der durch die Feinabstimmung des gesamten Modells verursachte Rechen- und Speicherverbrauch nicht mehr akzeptabel. LoRA verwendet ein Anpassungs-Feinabstimmungs-Inkrementschema mit niedrigem Rang und reduziert erfolgreich einen großen Teil dieses Verbrauchs, aber die Größe jedes Adapters (Adapters) ist immer noch nicht vernachlässigbar. Dies motiviert die Kernfrage dieses Artikels:
Wie können im Vergleich zu LoRA die trainierbaren Parameter noch deutlich reduziert werden? Darüber hinaus ist eine interessante Zusatzfrage, ob eine hochrangige inkrementelle Matrix
mit weniger Parametern erhalten werden kann.

Methode
Fourier-Basis wird häufig in verschiedenen Datenkomprimierungsanwendungen verwendet, beispielsweise bei der Komprimierung eindimensionaler Vektorsignale und zweidimensionaler Bilder. Bei diesen Anwendungen werden dichte räumliche Domänensignale durch Fourier-Transformation in spärliche Frequenzdomänensignale umgewandelt. Basierend auf diesem Prinzip vermutet der Autor, dass die Zunahme des Modellgewichts auch als räumliches Domänensignal betrachtet werden kann und das entsprechende Frequenzdomänensignal durch spärliche Darstellung realisiert werden kann.
Basierend auf dieser Annahme schlagen die Autoren eine neue Methode zum Lernen inkrementeller Gewichtssignale im Frequenzbereich vor. Insbesondere stellt diese Methode räumliche Domänengewichtszuwächse durch spärliche Frequenzdomänensignale an zufälligen Orten dar. Beim Laden des vorab trainierten Modells werden zunächst n Punkte zufällig als gültige Frequenzbereichssignale ausgewählt und diese Signale dann in einen eindimensionalen Vektor gespleißt. Während des Vorwärtsausbreitungsprozesses wird dieser eindimensionale Vektor verwendet, um die räumliche Matrix durch Fourier-Transformation wiederherzustellen. Aufgrund der Differenzierbarkeit der Fourier-Transformation kann dieser lernbare Vektor direkt aktualisiert werden. Diese Methode reduziert nicht nur effektiv die Anzahl der für die Modellfeinabstimmung erforderlichen Parameter, sondern gewährleistet auch die Feinabstimmungsleistung. Auf diese Weise erreichen die Autoren nicht nur eine effiziente Feinabstimmung großräumiger Basismodelle, sondern demonstrieren auch den potenziellen Einsatzwert der Fourier-Transformation im Bereich des maschinellen Lernens.

Dank des hohen Informationsgehalts der Fourier-Transformationsbasis ist nur ein kleiner n-Wert erforderlich, um eine Leistung zu erzielen, die mit LoRA vergleichbar ist oder diese sogar übertrifft. Im Allgemeinen betragen die trainierbaren Parameter der Fourier-Feinabstimmung nur ein Tausendstel bis ein Zehntel derjenigen von LoRA. 1. Verstehen natürlicher Sprache Zu den Basisvergleichsmethoden gehören Full Finetuning (FF), Bitfit, Adapter Tuning, LoRA, DyLoRA und AdaLoRA. Die folgende Tabelle zeigt die Leistung verschiedener Methoden bei verschiedenen GLUE-Aufgaben und die Menge der erforderlichen Trainingsparameter. Die Ergebnisse zeigen, dass die Fourier-Feinabstimmung die Leistung anderer Feinabstimmungsmethoden mit der geringsten Anzahl von Parametern erreicht oder sogar übertrifft.

2. Feinabstimmung des Unterrichts in natürlicher Sprache

Die Erzeugung großer Modelle in natürlicher Sprache ist derzeit ein wichtiges Anwendungsgebiet der Modellfeinabstimmung. Die Autoren bewerten die Leistung der Fourier-Feinabstimmung an der LLaMA-Modellfamilie, der MT-Bench-Aufgabe und der Vicuna-Aufgabe. Die Ergebnisse zeigen, dass die Fourier-Feinabstimmung mit einer sehr geringen Anzahl an Trainingsparametern ähnliche Effekte wie LoRA erzielt, was die Vielseitigkeit und Wirksamkeit der Fourier-Feinabstimmungsmethode weiter bestätigt.

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

3. Bildklassifizierung

Der Autor testete die Leistung der Fourier-Feinabstimmung am Vision Transformer und deckte dabei 8 gängige Bildklassifizierungsdatensätze ab. Experimentelle Ergebnisse zeigen, dass die Verbesserung der Komprimierungsrate durch die Fourier-Feinabstimmung im Vergleich zu LoRA bei Bildklassifizierungsaufgaben zwar nicht signifikanter ist als bei Aufgaben in natürlicher Sprache, aber immer noch die Wirkung von LoRA mit einer viel geringeren Anzahl von Parametern als bei LoRA übertrifft. Dies verdeutlicht die Wirksamkeit und Vorteile des Fourier-Trimmens in verschiedenen Anwendungsbereichen.

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

4. Durchbrechen niedriger Ränge

Auf dem RTE-Datensatz des GLUE-Benchmarks kann FourierFT in Schritten deutlich höhere Ränge als LoRA erreichen (typischerweise 4 oder 8).

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

5. GPU-Ressourcenverbrauch

Während des Feinabstimmungsprozesses kann FourierFT einen geringeren GPU-Verbrauch als LoRA erreichen. Die folgende Abbildung zeigt den Spitzenspeicherverbrauch beim RoBERTa-Large-Modell mit einer einzelnen 4090-Grafikkarte.

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

Fazit

Der Autor führte eine effiziente Feinabstimmungsmethode namens Fourier-Feinabstimmung ein, die die Fourier-Transformation verwendet, um die Anzahl der trainierbaren Parameter bei der Feinabstimmung eines großen Grundmodells zu reduzieren. Diese Methode reduziert den Speicher- und Rechenaufwand erheblich, indem sie eine kleine Anzahl von Fourier-Spektrum-Koeffizienten lernt, um Gewichtsänderungen darzustellen. Experimentelle Ergebnisse zeigen, dass die Fourier-Feinabstimmung bei Aufgaben wie dem Verstehen natürlicher Sprache, der Generierung natürlicher Sprache, der Befehlsoptimierung und der Bildklassifizierung eine gute Leistung erbringt. Im Vergleich zu bestehenden Anpassungsmethoden mit niedrigem Rang (wie LoRA) behält die Fourier-Feinabstimmung diese bei oder übertrifft sie Gleichzeitig wird die Leistung von LoRA stark reduziert.

Das obige ist der detaillierte Inhalt vonICML 2024 |. Durch die Abkehr von der LoRA-Architektur werden die Trainingsparameter stark reduziert und eine neue Art der Fourier-Feinabstimmung kommt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn