Heim >Technologie-Peripheriegeräte >KI >ICML 2024-Papier mit hoher Punktzahl |. Der Optimierer nullter Ordnung optimiert große Modelle und reduziert den Speicher erheblich

ICML 2024-Papier mit hoher Punktzahl |. Der Optimierer nullter Ordnung optimiert große Modelle und reduziert den Speicher erheblich

王林
王林Original
2024-07-16 03:17:301067Durchsuche
ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存
Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Über den Co-Erstautor dieses Artikels: Zhang Yihua: Doktorand im dritten Jahr am Fachbereich Informatik der Michigan State University Unter der Leitung von Professor Sijia Liu beschäftigt sie sich hauptsächlich mit Fragen der Sicherheit, des Datenschutzes und der Effizienz großer Modelle. Li Pingzhi: Er schloss sein Studium an der University of Science and Technology of China im Herbst 2024 als Doktorand ab und studierte dort bei Professor Chen Tianlong Der Fokus liegt auf den Bereichen effizientes maschinelles Lernen und AI4Science. Hong Junyuan: Postdoktorand an der University of Texas in Austin, betreut von Professor Zhangyang Wang. Er schloss sein Studium an der Michigan State University mit einem Ph.D. unter der Leitung von Professor Jiayu Zhou ab. Sein aktueller Forschungsschwerpunkt sind vertrauenswürdige große Sprachmodelle und medizinische Anwendungen künstlicher Intelligenz. Li Jiaxiang: Postdoktorand an der University of Minnesota. Derzeit forscht er unter der Leitung von Professor Hong Mingyi und Professor Zhang Shuzhong über numerische Optimierungstheorie, Theorie des maschinellen Lernens und Optimierungsprobleme im großen Maßstab.

Open-Source-Large-Language-Modelle (LLM) stehen in voller Blüte. Um sie an verschiedene nachgelagerte Aufgaben anzupassen, ist die Feinabstimmung die am weitesten verbreitete Grundmethode. Obwohl Optimierer erster Ordnung (SGD, Adam usw.), die auf automatischer Differenzierungstechnologie (SGD, Adam usw.) basieren, den Mainstream bei der Modellfeinabstimmung einnehmen, üben sie mit zunehmender Modellgröße einen zunehmenden Druck auf den Videospeicher aus. Daher ist die Frage, wie der Grafikspeicher während der Feinabstimmung effizient reduziert werden kann, damit eine einzelne Karte die Feinabstimmungsanforderungen erfüllen kann, zu einem heißen Forschungsthema geworden. Es ist erwähnenswert, dass Backpropagation zwar der Eckpfeiler dieser Optimierer erster Ordnung ist und zur Berechnung des Gradienten jedes Gewichts des neuronalen Netzwerks verwendet wird, aber auch ein Speicherkiller ist. Der durch das Speichern großer Berechnungsdiagramme verursachte Overhead ist ebenfalls groß. Besonders hervorgehoben wird die Modellära. Gleichzeitig muss die Optimierung nullter Ordnung den Berechnungsgraphen überhaupt nicht speichern und verwendet stattdessen endliche Differenzen, um den Gradienten des Netzwerks zu approximieren, wodurch das neuronale Netzwerk durch vollständige Vermeidung der Rückausbreitung (BP Memory) erheblich reduziert wird Mehraufwand bei Netzwerkaktualisierungen.

Ähnlich wie die verschiedenen Varianten des stochastischen Gradientenabstiegs in Optimierern erster Ordnung verfügen auch Optimierer nullter Ordnung über verschiedene verbesserte Algorithmen, die bisher noch nicht erforscht wurden. Kürzlich haben viele Forscher der Michigan State University, der University of North Carolina in Chapel Hill, der University of Texas in Austin, der University of Minnesota Twin Cities, dem IBM Research Center, der Princeton University und der Alibaba Damo Academy gemeinsam einen umfassenden Bewertungsartikel (Benchmark) veröffentlicht: Überprüfung der Optimierung nullter Ordnung für speichereffiziente LLM-Feinabstimmung: Ein Benchmark. Dieser Artikel behandelt sechs Arten von Optimierern, die keine Backpropagation erfordern (BP-frei), fünf Arten großer Modelle, Aufgaben mit drei Komplexitätsstufen, vier Arten von Feinabstimmungsschemata und drei neue Algorithmen, die Optimierer nullter Ordnung verbessern. Derzeit wurden verwandte Arbeiten von ICML 2024 mit hoher Punktzahl angenommen, und der Code ist Open Source.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

  • Papieradresse: https://arxiv.org/abs/2402.11592
  • Codeadresse: https://github.com/ZO-Bench/ZO-LLM
  • Adresse der Vorlesungsunterlagen zur Optimierung nullter Ordnung (AAAI 2024 Tutorial): https://sites.google.com/view/zo-tutorial-aaai-2024/

Was ist ein Optimierer nullter Ordnung? Warum ist es so wichtig?

Die Optimierung nullter Ordnung verlässt sich zur Gradientenschätzung nur auf die Ausgabe des neuronalen Netzwerks und ist dafür bekannt, dass die Backpropagation überhaupt nicht berechnet werden muss und nur sehr wenig interner Trainingsaufwand erforderlich ist. Obwohl es im Bereich der Optimierer nullter Ordnung verschiedene Methoden zur Gradientenschätzung gibt, bezieht sich dieser Artikel speziell auf eine Reihe von Algorithmen, die auf dem Random Gradient Estimator (RGE) basieren. Einfach ausgedrückt wird die endliche Differenz durch zufällige Störungen aus einer Gaußschen Verteilung berechnet und als ungefähre Schätzung des Gradienten verwendet. Die mathematische Formel von RGE lautet wie folgt.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Zuvor wurde die Optimierung nullter Ordnung häufig bei Problemen des maschinellen Lernens eingesetzt, z. B. bei der Generierung und Verteidigung von kontradiktorischen Mustern, der Interpretation von Black-Box-Modellen, dem verstärkenden Lernen und dem automatischen maschinellen Lernen. Eine detaillierte Einführung in Algorithmen und Anwendungen finden Sie in [1]. . Im Bereich großer Modelle schlug MeZO [2] zunächst die Verwendung des stochastischen Gradientenabstiegs nullter Ordnung (ZO-SGD) als Feinabstimmung für große Modelle vor und demonstrierte das unbegrenzte Potenzial von Optimierern nullter Ordnung. Gleichzeitig ist ZO-SGD der einfachste und grundlegendste BP-freie Optimierer. Ob seine vielen fortgeschritteneren Varianten [3] uns mehr Überraschungen im Bereich der Feinabstimmung großer Modelle bringen können, ist ein Thema, das dringend erforscht werden muss. Dieser Artikel bewertet systematisch die Leistung, Effizienz und Kompatibilität der folgenden Optimierungsalgorithmen ohne Backpropagation (BP-frei) bei Feinabstimmungsaufgaben für große Modelle. Der Zweck besteht darin, der Community die Breite des Optimierers nullter Ordnung für eine Vielzahl von Aufgaben zu zeigen große Modellaufgaben. Potenzial:

  • ZO-SGD: Stochastischer Gradientenabstieg nullter Ordnung [4]
  • ZO-SGD-Sign: Vorzeichenbasierter stochastischer Gradientenabstieg nullter Ordnung [5]
  • ZO-SGD-MMT: Stochastischer Gradientenabstieg nullter Ordnung mit Impuls [6]
  • ZO-SGD-Cons: Stochastischer Gradientenabstieg nullter Ordnung mit konservativer Gradientenaktualisierung [7]
  • ZO-Adam: Adam-Optimierer nullter Ordnung [8]

Diese Studie umfasst auch die Forward-Grad-Methode [9], bei der unvoreingenommene Schätzungen von Gradienten auf Richtungsableitungen entlang zufälliger Richtungsvektoren basieren. Es ist erwähnenswert, dass Forward-Grad zwar nicht direkt die Gradienten-Backpropagation verwendet, aber dennoch einen automatischen Differenzierungsalgorithmus verwendet, sodass es sich um einen BP-freien Algorithmus erster Ordnung handelt.

Zusammenfassend lässt sich sagen, dass die Bewertung dieses Artikels die oben genannten fünf Optimierer nullter Ordnung und die Forward-Grad-Methode umfasst und gleichzeitig die am häufigsten verwendeten Optimierer erster Ordnung, FO-SGD und FO-Adam, vergleicht. Hinsichtlich spezifischer Feinabstimmungsformen deckt die Bewertung umfassend 5 LLM-Architekturen (RoBERTa, OPT, LLaMA, Vicuna, Mistral), 3 Aufgaben unterschiedlicher Komplexität (SST2, COPA, WinoGrande) und 4 Feinabstimmungslösungen (vollständig) ab. Tuning, LoRA, Prompt-Tuning, Präfix-Tuning).

Bewertung der Genauigkeit der Feinabstimmung großer Modelle

Der Autor wies darauf hin, dass die Eingabevorlage verwendet werden muss, um den Optimierer nullter Ordnung zur Feinabstimmung großer Modelle für nachgelagerte Aufgaben effektiv zu nutzen rational, sodass die nachgelagerten Aufgaben an vorab trainierten Aufgaben ausgerichtet werden können. Beispielsweise kann für SST2 die Verwendung der Vorlage „SENTENCE. It was [terrible|great].“ zu einer Leistungsverbesserung von 10 % bei ZO-SGD führen. Bei Optimierern erster Ordnung (wie FO-SGD) ist der Leistungsunterschied jedoch nicht signifikant, unabhängig davon, ob eine Vorlage verwendet wird oder nicht, was die Einzigartigkeit des Optimierers nullter Ordnung hervorhebt.

SST2 Als eine grundlegendere Aufgabe können die experimentellen Ergebnisse die folgenden Schlussfolgerungen stützen:

  • ZO-Adam scheint der effektivste Optimierer nullter Ordnung zu sein: 4 von 8 fein abgestimmten Einstellungen Beste Leistung im .
  • Forward-grad ist eine konkurrenzfähige, aber bisher übersehene Methode, insbesondere bei der vollständigen Feinabstimmung.
  • ZO-SGD-Cons und ZO-SGD-MMT zeigen ebenfalls eine starke Leistung, während ZO-SGD-Sign als einfachster Optimierer nullter Ordnung oft die schwächste Methode ist.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Darüber hinaus verwendete die Studie das größere Modell OPT-13B, um Experimente zu komplexeren und schwierigeren Aufgaben durchzuführen (COPA und WinoGrande) und kam zu den folgenden Schlussfolgerungen:

  • Bei komplexeren Aufgaben Die Leistungsunterschiede zwischen verschiedenen Optimierern werden noch verstärkt.
  • ZO-Adam und ZO-SGD-MMT zeigten in verschiedenen Experimenten eine sehr gute Stabilität, was auf das Design mit reduzierter Varianz zurückzuführen sein kann.
  • Die Feinabstimmung von LoRA hat sich immer als sehr robust gegenüber Algorithmen nullter Ordnung erwiesen und ist in verschiedenen experimentellen Umgebungen stabil und zuverlässig.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Bewertung und detaillierte Erläuterung des Speicheraufwands für die Feinabstimmung großer Modelle

Am Beispiel der Feinabstimmung des OPT-13B-Modells am MultiRC-Datensatz verglich und analysierte der Autor den Speicher und die Zeit weiter Kosten verschiedener Optimierer nullter und erster Ordnung. Wie in der folgenden Tabelle gezeigt: Erstens zeigen ZO-SGD, ZO-SGD-Cons und ZO-SGD-Sign aus Sicht der Speichereffizienz eine ähnlich hohe Speichereffizienz und erfordern nur eine A100-GPU für die Feinabstimmung großer Sprachmodelle . Dies ist nicht überraschend, da diese Optimierer nullter Ordnung relativ einfache Optimierungsschritte verwenden und sich hauptsächlich auf die Verwendung des Gradientenschätzers nullter Ordnung RGE verlassen. Zweitens scheint Forward-Grad der Wendepunkt zu sein, an dem Optimierungsmethoden nullter Ordnung Methoden erster Ordnung hinsichtlich der Speichereffizienz übertreffen (z. B. im Vergleich zu ZO-Adam). Schließlich werden im Vergleich zur Methode erster Ordnung die Laufzeitkosten jeder Iteration der Optimierung nullter Ordnung um etwa 41,9 % reduziert (am Beispiel von ZO-SGD vs. FO-SGD).

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Der Autor verglich außerdem die Gedächtniseffizienz von ZO-SGD und FO-SGD bei verschiedenen Sequenzlängen. Es ist ersichtlich, dass der Speicherverbrauch von ZO-SGD konstant bleibt, da sein Spitzenspeicherverbrauch nur durch die Modellparametergröße bestimmt wird. Im Gegensatz dazu bleibt der Spitzenspeicherverbrauch von FO-SGD mit zunehmender Sequenzlänge zunächst unverändert beginnen zuzunehmen. Daher weist ZO-SGD bei einer langen Kontextlänge bessere Vorteile bei der Speichereffizienz auf. Spezifische speichertheoretische Werte und experimentelle Werte finden Sie im Originalpapier.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Drei verbesserte Algorithmen zur Verbesserung des Optimierers nullter Ordnung

Optimierer nullter Ordnung weisen bei der Anwendung auf LLM eine begrenzte Konvergenzeffizienz auf, hauptsächlich aufgrund ihrer großen Varianz bei Gradientenschätzungen. Um den Optimierer nullter Ordnung weiter zu verbessern, schlug der Autor drei fortschrittliche Algorithmen im Hinblick auf die Reduzierung der Varianz der Gradientenschätzung vor, darunter: blockweise ZO-Feinabstimmung, hybride Feinabstimmung nullter und erster Ordnung ( Hybrid-ZO- und FO-Feinabstimmung), Gradientenschätzung nullter Ordnung, die Sparsity einführt (Sparsity-induzierte ZO-Gradientenschätzung).

Blockweise ZO-FeinabstimmungDer Hauptstartpunkt dieser Methode besteht darin, dass, wenn der Optimierer nullter Ordnung die Parameterblöcke im LLM beim Schätzen des Gradienten separat stört, durch Reduzieren die Problemgröße verwendet wird Berücksichtigen Sie die Varianz jeder Gradientenschätzung und verbessern Sie so die Optimierungsleistung. Der Vorteil dieser Methode besteht darin, dass sie den Modellgradienten genauer schätzen kann, aber die Anzahl der Vorwärtsausbreitungen, die zum Abschluss einer Gradientenschätzung erforderlich sind, erhöht sich. Beispielsweise kann OPT-1.3B in 26 Parameterblöcke unterteilt werden (24 Transformer-Schichten, Einbettungsschichten und LM-Klassifizierungskopf), sodass der Optimierer nullter Ordnung bei jeder Berechnung des Modellgradienten 26 Vorwärtsdurchläufe berechnet. Um ZO-SGD und ZO-SGD-Block fair zu vergleichen, hat der Autor auch die Leistung einer anderen ZO-SGD-Variante verglichen, die jedes Mal Parameterstörungen am gesamten Modell durchführt und den Gradienten nach mehreren Störungen schätzt. (z. B. 26 Mal für OPT-1.3B), um sicherzustellen, dass die Anzahl der Vorwärtsausbreitungen während des Vergleichs gleich ist. Experimentelle Ergebnisse zu OPT-1.3B zeigen, dass der ZO-SGD-Block die beiden ZO-SGDs deutlich übertrifft.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Hybride ZO- und FO-FeinabstimmungBackpropagation (BP) berechnet nacheinander den Gewichtsgradienten von tiefen zu flachen neuronalen Netzen. Da der Optimierer nullter Ordnung einen weitaus größeren Vorteil bei der Speichernutzung hat als der herkömmliche Optimierer erster Ordnung, ist die Leistung des Optimierers erster Ordnung oft besser. Daher wird durch die Verwendung einer Kombination aus Optimierern nullter und erster Ordnung ein Kompromiss zwischen Speichernutzung und Leistung erzielt. Insbesondere für tiefere Netzwerke kann ein Optimierer erster Ordnung verwendet werden, um den Gradienten durch Backpropagation genau zu berechnen; für flache Netzwerke kann ein Optimierer nullter Ordnung zur Gradientenschätzung verwendet werden. Experimentelle Ergebnisse zeigen, dass durch die Verwendung eines Optimierers nullter Ordnung im flachen Teil (z. B. die ersten 8/24 Schichten von OPT-1.3B) und durch die Verwendung eines Optimierers erster Ordnung in den verbleibenden tiefen Teilen etwa ein Drittel des Videos eingespart werden kann Gleichzeitig wird das gleiche Leistungsniveau wie bei der Verwendung eines reinen Optimierers erster Ordnung erreicht.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Optimierer nullter Ordnung mit spärlichem Gradienten (ZO mit Gradientenbeschneidung)Bei Optimierern erster Ordnung wird Gradientenbereinigung normalerweise verwendet, um den Trainingsprozess zu beschleunigen, während bei Optimierern nullter Ordnung der spärliche Gradient, der durch Gradientenbeschneidung eingeführt wird, möglich ist Reduziert weiter die Varianz von Gradientenschätzungen und verbessert dadurch die Leistung. In diesem Artikel wird die Anwendung einer amplitudenbasierten Bereinigungsstrategie in einem Optimierer nullter Ordnung untersucht, um die Sparsity-Rate jeder Schicht zu erhalten. Anschließend werden auf der Grundlage dieser Sparsity-Raten zufällige Sparse-Gradientenmasken (Masken) generiert und auf die stochastische Gradientenschätzung angewendet. Störung auf. Experimentelle Ergebnisse zeigen, dass eine moderate Gradientensparsität (ca. 20 %) eine gewisse Leistungsverbesserung für den Optimierer nullter Ordnung bringen kann.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Fazit

In diesem Artikel haben wir die effektive Anwendung von Optimierern nullter Ordnung bei der Feinabstimmung großer Sprachmodelle demonstriert. Durch die Verwendung von Verlustunterschieden zur Annäherung von Gradienten vermeidet die Optimierungsmethode nullter Ordnung die Notwendigkeit einer Backpropagation und Aktivierungsspeicherung, wodurch Speicherressourcen erheblich gespart werden. Durch die Erweiterung des bestehenden Forschungsumfangs haben wir verschiedene Methoden der Optimierung nullter Ordnung, Aufgabentypen und Bewertungsindikatoren in diese Bewertung einbezogen und die erste systematische Benchmark-Studie zur Technologie der Optimierung nullter Ordnung durchgeführt. Unsere Studie zeigt nicht nur, wie genau und effizient diese Methoden abschneiden, sondern liefert auch Einblicke in die entscheidende Rolle der Aufgabenausrichtung und des Vorwärtsgradienten. Mithilfe dieser experimentellen Analysen schlagen wir Techniken wie Blockoptimierung, Hybridtraining nullter und erster Ordnung sowie Gradientensparsifizierung vor, um die Feinabstimmung großer Modelle auf der Grundlage der Optimierung nullter Ordnung weiter zu verbessern. Diese Verbesserungen sollen die Feinabstimmungsgenauigkeit verbessern und gleichzeitig die Speichereffizienz aufrechterhalten.

Wir sind fest davon überzeugt, dass die Anwendung dieser Entdeckungen und Technologien den Hardware-Ressourcenbedarf für die Forschung an großen Modellen erheblich reduzieren kann, wodurch die Feinabstimmung großer Modelle auf Low-End-GPUs möglich wird, wodurch die akademische Forschung weiter gefördert und praktische und praktische Ergebnisse erzielt werden praktische Ergebnisse in der Branche. Wir ermutigen Forscher und Technologieentwickler, unseren Forschungsergebnissen Aufmerksamkeit zu schenken und weitere Möglichkeiten der ZO-Optimierung zu erkunden. Zukünftige Forschung wird weiterhin tiefgreifende Fragen in diesem Bereich untersuchen, um mehr Potenzial für die Feinabstimmung des LLM zu erschließen.

Weitere Informationen finden Sie im Paper und im GitHub-Repository für weitere Informationen und Ressourcen.

Referenz:
[1] Liu, et al. „Eine Einführung in die Optimierung nullter Ordnung in der Signalverarbeitung und im maschinellen Lernen.“ IEEE Signal Processing Magazine 37, Nr. 2020): 43-54.
[2] Malladi, et al., „Fine-Tuning Language Models with Just Forward Passes‘ 2023.
[3] Liu, et al. al., „Eine Einführung in die Optimierung nullter Ordnung in der Signalverarbeitung und im maschinellen Lernen.“ IEEE Signal Processing Magazine.
für nichtkonvexe stochastische Programmierung. Beschleunigte Impulsmethoden nullter und erster Ordnung von der Mini- bis zur Minimax-Optimierung.“ , et al., „ZO-AdaMM: Zeroth-Order Adaptive Momentum Method for Black-Box Optimization.“
[9] Baydin, et al., „Gradients without Backpropagation.“

Das obige ist der detaillierte Inhalt vonICML 2024-Papier mit hoher Punktzahl |. Der Optimierer nullter Ordnung optimiert große Modelle und reduziert den Speicher erheblich. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn