Heim >Technologie-Peripheriegeräte >KI >Was sind die Ursprünge und Anwendungen der RLHF-Technologie in Sprachmodellen?
RLHF ist verstärkendes Lernen durch menschliches Feedback. In diesem Artikel wird vorgestellt, wie das Large Language Model (LLM) mit RLHF kombiniert wird.
Reinforcement Learning ist ein Zweig des maschinellen Lernens, der optimale Strategien durch Interaktion mit der Umgebung lernt. Agenten wählen Aktionen aus, die sich auf Übergänge in Umweltzuständen auswirken, und werden entsprechend belohnt. Belohnungen sind Rückmeldungssignale für den Reinforcement-Learning-Agenten, um seine Strategie anzupassen. Während der Trainingsphase passt der Agent seine Strategie basierend auf Belohnungen an, um die langfristigen Erträge zu maximieren.
Daher ist es von entscheidender Bedeutung, ein geeignetes Belohnungssystem zu entwerfen, das der Schlüssel zum verstärkenden Lernen ist. RLHF hingegen integriert menschliches Feedback und bindet Menschen in den Trainingsprozess ein, um den Trainingseffekt von Reinforcement-Learning-Agenten zu verstärken.
Der Feinabstimmungsprozess des verstärkenden Lernens großer Sprachmodelle (LLM) besteht normalerweise aus drei Phasen. Zunächst beginnen wir mit einem vorab trainierten Sprachmodell. Da LLM eine große Menge an Trainingsdaten erfordert, ist es unpraktisch, es mit manuellem Feedback von Grund auf zu trainieren. Daher können wir durch unbeaufsichtigtes Lernen vorab trainieren und vorhandene Sprachmodelle für die Ausgabegenerierung verwenden. Nach Abschluss des Vortrainings folgt als nächster Schritt die Feinabstimmungsphase. In dieser Phase werden wir Reinforcement-Learning-Algorithmen verwenden, um das LLM zu optimieren. Durch die Interaktion mit der Umgebung kann LLM Feedback von der Umgebung erhalten und seine Ausgabe optimieren, indem es die Parameter des Modells anpasst. Der letzte Schritt ist die anschließende Feinabstimmung. In dieser Phase interagiert das LLM mit der spezifischen Aufgabe und besteht sie.
Als nächstes müssen wir in der zweiten Phase ein Belohnungsmodell für das RL-System erstellen. In dieser Phase trainieren wir ein weiteres Modell für maschinelles Lernen, das den vom Hauptmodell generierten Text nimmt und einen Qualitätsfaktor dafür generiert. Typischerweise verwenden wir ein anderes LLM-Modell und modifizieren es so, dass es einen Skalarwert anstelle einer Folge von Text-Tokens ausgibt. Dieser Qualitätsfaktor wird als Belohnungssignal verwendet, um das Hauptmodell bei der Generierung von Text mit höherer Qualität anzuleiten.
Um das Belohnungsmodell zu trainieren, müssen wir einen Qualitätsbewertungsdatensatz erstellen, der LLM-generierten Text enthält. Jedes Trainingsbeispiel besteht aus einem Hinweis und mehreren vom LLM generierten Ausgaben. Als nächstes haben wir Menschen gebeten, die Qualität dieser generierten Texte zu bewerten. Anschließend verwenden wir diese Bewertungsergebnisse, um ein Belohnungsmodell zu trainieren, um die Punktzahl von LLM-generiertem Text vorherzusagen. Durch Training zwischen der Ausgabe des LLM und den Bewertungen ist das Belohnungsmodell in der Lage, eine mathematische Darstellung menschlicher Präferenzen zu erstellen.
In der letzten Phase haben wir eine Feinabstimmung vorgenommen und eine verstärkende Lernschleife erstellt. Als RL-Agent wird ein Replikat des Master-LLM verwendet. Bei jedem Trainingssatz übernimmt LLM mehrere Hinweise aus dem Datensatz und generiert Text. Der Text wird dann an ein Belohnungsmodell übergeben, das eine Bewertung zuweist, die seine Übereinstimmung mit menschlichen Vorlieben bewertet. Anschließend aktualisieren wir das LLM, um Ausgaben zu generieren, die im Belohnungsmodell besser abschneiden.
Obwohl es sich um ein allgemeines RLHF-Framework für Sprachmodelle handelt, erfordern unterschiedliche Implementierungsziele entsprechende Modifikationen.
Eine weitere Überlegung für Sprachmodelle in RLHF ist die Aufrechterhaltung eines Gleichgewichts zwischen Belohnungsoptimierung und Sprachkonsistenz. Obwohl Belohnungsmodelle nur unvollkommene Annäherungen an menschliche Präferenzen darstellen, können Agenten-LLMs die Belohnungen maximieren, indem sie die syntaktische oder logische Konsistenz verletzen, ähnlich wie bei den meisten RL-Systemen. Um dies zu verhindern, behält das ML-Team eine Kopie des ursprünglichen LLM und verwendet sie in der RL-Schleife. Sie integrierten die Differenz zwischen der Ausgabe des ursprünglichen LLM und der Ausgabe des RL-trainierten LLM (KL-Divergenz) als negativen Wert in das Belohnungssignal, um zu verhindern, dass die Abweichung zwischen dem Modell und der ursprünglichen Ausgabe zu groß wird. Diese Strategie zielt darauf ab, die Beziehung zwischen Belohnungsoptimierung und Sprachkonsistenz auszugleichen.
Das obige ist der detaillierte Inhalt vonWas sind die Ursprünge und Anwendungen der RLHF-Technologie in Sprachmodellen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!