Heim >Technologie-Peripheriegeräte >KI >Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-08-05 20:48:40988Durchsuche

Angesichts der derzeit gängigen Praxis, bei der Feinabstimmung großer Modelle hauptsächlich auf von Menschen generierten Daten zu basieren, hat Google DeepMind nach einem effizienteren Weg gesucht, diese Abhängigkeit zu verringern.

Wie Sie und ich sehen können, verändern Large Language Models (LLMs) die Deep-Learning-Landschaft und demonstrieren überlegene Fähigkeiten bei der Generierung von Texten in menschlicher Qualität und der Lösung verschiedener Sprachaufgaben. Während die Branche die Leistung bei bestimmten Aufgaben durch die überwachte Feinabstimmung der von Menschen gesammelten Daten weiter verbessert hat, stößt die Beschaffung hochwertiger menschlicher Daten auf erhebliche Engpässe. Dies gilt insbesondere für Aufgaben, bei denen es um die Lösung komplexer Probleme geht, die erhebliche Ressourcen und Fachwissen erfordern.

Wie löst man das Problem? Durch Modelle generierte synthetische Daten sind eine vielversprechende Alternative, die skalierbar und kostengünstig sein kann, solange die Qualität der Daten erhalten bleibt.

Während LLM in der Lage ist, die generierten Daten selbst auszuwerten, untersucht Google DeepMind in diesem Artikel einen einfacheren Aufbau, der ein externes skalares Feedback-Signal als Qualitätsindikator für jede generierte Probe verwendet.

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Papieradresse: https://arxiv.org/pdf/2312.06585.pdf

Um das Training anhand modellgenerierter Daten zu untersuchen, erwogen die Forscher ein einfaches, aber leistungsstarkes Sprachmodell zum Selbsttraining Die Methode erfordert nur zwei Funktionen: Die eine besteht darin, Stichproben basierend auf dem Modell zu generieren, und die andere darin, den Bewertungsmechanismus zur Bewertung dieser Stichproben zu verwenden.

Um Klarheit und Konsistenz zu gewährleisten, haben die Forscher eine verstärkende Selbsttrainingsmethode ReST^?? übernommen und bewiesen, dass diese Methode Erwartungsmaximierung (EM) für verstärkendes Lernen nutzen kann. Insbesondere wechselt ReST^?? zwischen Erwartungs- und Maximierungsschritten.

Generierung (E-Schritt): Das Sprachmodell generiert mehrere Ausgabebeispiele für jeden Eingabekontext und filtert diese Beispiele dann mithilfe binärer Belohnungen, um einen Trainingsdatensatz zu sammeln.
Verbesserung (M-Schritt): Das ursprüngliche Sprachmodell wird überwacht, anhand des Trainingsdatensatzes aus dem vorherigen E-Schritt verfeinert und dann im nächsten E-Schritt verwendet.

Forscher bestätigten, dass ReST^?? und seine Varianten bei der Verbesserung von Sprachmodellen in verschiedenen Bereichen erfolgreich waren, darunter maschinelle Übersetzung, semantische Analyse, Präferenzausrichtung und grundlegendes Denken.

Darüber hinaus wurde in früheren Arbeiten hauptsächlich ReST^??für relativ kleine Modelle (bis zu 7 Milliarden Parameter) verwendet, mit begrenzter Skalierbarkeit für größere Modelle. Daher zielt dieser Artikel darauf ab, die Wirksamkeit und Skalierbarkeit von modellgenerierten synthetischen Daten im Vergleich zu von Menschen generierten Daten in zwei anspruchsvollen, aber weniger untersuchten Bereichen zu untersuchen: Mathematische Problemlösung auf Wettbewerbsniveau (MATH) und Codegenerierung (APPS).

Empirische Ergebnisse zeigen, dass bei der Verwendung von ReST^?? für PaLM 2-Modelle unterschiedlicher Größe erhebliche Leistungsverbesserungen bei mathematischen Argumentations- und Codegenerierungsaufgaben erzielt werden. Modelle, die auf vom Modell generierten synthetischen Daten verfeinert wurden, erzielten größere Leistungssteigerungen als Modelle, die auf von Menschen geschriebenen Daten trainiert wurden. Interessanterweise nimmt die Leistung ab einer bestimmten Anzahl von ReST^??-Iterationen ab, was auf die Möglichkeit einer Überanpassung bei einer kleinen Anzahl von Trainingsproblemen hinweist.

Darüber hinaus wurde das Modell mithilfe von ReST verfeinert^?? Die Pass@k-Metrik und die Mehrheitsabstimmungsleistung wurden verbessert. Diese fein abgestimmten Modelle zeigen auch Leistungsverbesserungen bei relevanten, aber ausgebliebenen Benchmarks, darunter Mathematik (GSM8K und ungarische HS-Finale), Codierung (HumanEval) und Big-Bench-Schweraufgaben.

Zusammenfassend zeigen die Ergebnisse dieser Arbeit, dass Selbsttraining mit Feedback eine vielversprechende Methode ist, um die Abhängigkeit von menschlichen Daten zu reduzieren.

Erwartetes Maximum (EM) für das verstärkende Selbsttraining

Erstens basiert diese Studie auf der früheren Forschung von Dayan und Hinton und verwendet ein Sprachmodell zur Beschreibung des EM-basierten Rahmens für verstärkendes Lernen . Insbesondere definierten sie zunächst eine binäre optimale Variable O mit ?(?= 1|?,?)∝?(?(?,?)); dann erreichten sie für die nicht abnehmende Funktion ?: ℝ → ℝ+ die Maximierung Beobachtung?= 1 (Erzielung einer hohen Belohnung), wird die folgende Formel erhalten:

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Allerdings ist es schwierig, die Summe der Folge ? in der obigen Gleichung zu lösen. Daher erwägt dieser Artikel die Maximierung seines ELBO ?( ??, ?) in Bezug auf den Parameter ? und die Variationsverteilung ?( ?|?) anstelle der Maximierung von log ?(? = 1; ?). Konkret:

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Der EM-Algorithmus in Formel (2) wechselt zwischen E-Schritt (Erwartung) und M-Schritt (Maximierung).

ReST^??: Inspiriert vom EM-Framework diskutiert der nächste Artikel eine vereinfachte Version der von Gulcehre et al. vorgeschlagenen ReST-Methode. Der Klarheit halber nennt dieser Artikel diesen Ansatz ReST^??, der die Datenerfassung (E-Step) und die Richtlinienoptimierung (M-Step) in der RL-Pipeline entkoppelt. Wie in Algorithmus 1 gezeigt:

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Generierung (E-Schritt) : In diesem Schritt generiert die Studie den Datensatz Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

durch Abtasten der Ausgabesequenz aus der aktuellen Richtlinie Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

. Hier wird die Eingabe aus dem Originaldatensatz erneut abgetastet Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

. Die Ausgabesequenz in Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

wird dann mithilfe der binären Belohnungsfunktion ?(?, ?) bewertet.

Verbesserung (M-Schritt) : In der ?-Iteration verwendet die Studie den neuen Datensatz Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

im E-Schritt, um die Strategie zu verfeinern ??. Im Gegensatz zu Gulcehres Studie optimieren sie ein vorab trainiertes Basis-Sprachmodell, um aufgabenspezifische Überanpassungen und Abweichungen vom Basismodell zu minimieren. Zur Feinabstimmung minimiert die Studie den belohnungsgewichteten negativen Log-Likelihood-Verlust Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

. Sobald die Strategie verbessert wird, kann wieder ein neuer Datensatz mit qualitativ besseren Stichproben erstellt werden.

Experimente und Analyse

Das Hauptziel der Durchführung von Experimenten in diesem Artikel besteht darin, die folgenden Fragen zu beantworten:

Wie effektiv ist ReST^?? im Vergleich zur Feinabstimmung auf von Menschen erzeugten Daten?
Wie viele Iterationen sind erforderlich, um die beste Leistung zu erzielen? ReST^??Wie lange dauert die Überanpassung des Trainingssatzes?
ReST^??Wie wirkt es sich auf die Leistung von pass@k und Mehrheitsentscheidungen aus?
Wenn ein Benutzer die vom Modell generierten Daten zur Feinabstimmung einer bestimmten Aufgabe verwendet, werden diese dann auf andere Aufgaben übertragen? Verschlechtert sich die Leistung im Vergleich zum Basismodell, wenn wir unser fein abgestimmtes Modell für ein breites Aufgabenspektrum evaluieren?
Wie viele Eingabedaten werden ungefähr benötigt, um die meisten Leistungssteigerungen durch ReST zu erzielen^??? Reicht eine Iteration von ReST^??

In dieser Studie wurden Experimente mit dem PaLM 2-Modell und öffentlichen APIs in Google Cloud durchgeführt, darunter PaLM 2-S (Bison), PaLM 2-S* (Codey) und PaLM 2-L (Unicorn). Der Trainingsdatensatz verwendet den MATH-Datensatz und den APPS-Datensatz.

Abbildung 2 und Abbildung 3 zeigen die Leistung von ReST^??, trainiert auf den MATH- bzw. APPS-Datensätzen. Daraus lässt sich schließen, dass MATH von mehreren Iterationen von ReST^?? profitiert, sowohl im Hinblick auf die Leistung des MATH-Testsatzes als auch auf die Migration zu GSM8K. Andererseits lässt sich erkennen, dass die meisten Gewinne für APPS aus der ersten Iteration stammen, während die Durchführung weiterer Iterationen zu Leistungseinbußen sowohl bei APPS als auch bei HumanEval führt.

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Die Lücke zwischen Training und Testleistung. Abbildung 4 zeigt, dass die Leistung des Trainingssatzes zwar linear mit der Anzahl der ReST^??-Iterationen zunimmt, die Leistung des Testsatzes jedoch nicht. Bei MATH wurde nach der ersten Iteration kaum eine Verbesserung der Testleistung beobachtet, während bei APPS in der zweiten Iteration ein Leistungsrückgang zu beobachten war. Die Studie geht davon aus, dass der Leistungsrückgang auf eine Überanpassung zurückzuführen sein könnte. Da der APPS-Datensatz etwa ein Drittel der Größe des MATH-Datensatzes hat, ist er anfälliger für dieses Problem.

Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Abbildung 5 zeigt die Leistung des Palm-2-L-Modells auf der pass@K-Metrik. Die Ergebnisse zeigen, dass das nach der Feinabstimmung erhaltene ReST^??-Modell für alle Werte von K stärker ist, wobei der Leistungsunterschied im Allgemeinen bei K=1 am größten ist. Muss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser

Das obige ist der detaillierte Inhalt vonMuss sich die Feinabstimmung großer Modelle auf menschliche Daten stützen? DeepMind: Selbsttraining mit Feedback ist besser. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

math 算法 https palm

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Integration neuer Qualitäten und Resonanz der Rechenleistung: Bose Quantum bringt eine neue Generation kohärenter optischer Quantencomputer mit 550 Qubits auf den MarktNächster Artikel：Integration neuer Qualitäten und Resonanz der Rechenleistung: Bose Quantum bringt eine neue Generation kohärenter optischer Quantencomputer mit 550 Qubits auf den Markt

In Verbindung stehende Artikel

Mehr sehen