Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

王林
王林nach vorne
2023-10-27 15:13:06979Durchsuche

In einer aktuellen Studie haben Forscher von UW und Meta einen neuen Dekodierungsalgorithmus vorgeschlagen, der den von AlphaGo verwendeten Monte-Carlo Tree Search (MCTS)-Algorithmus auf das mit Proximal Policy Optimization (PPO) trainierte RLHF-Sprachmodell anwendet ) wird die Qualität des vom Modell generierten Textes erheblich verbessert.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Der PPO-MCTS-Algorithmus sucht nach einer besseren Dekodierungsstrategie, indem er mehrere Kandidatensequenzen untersucht und bewertet. Der von PPO-MCTS generierte Text kann die Aufgabenanforderungen besser erfüllen.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Link zum Papier: https://arxiv.org/pdf/2309.15028.pdf

LLM, das für öffentliche Benutzer freigegeben ist, wie GPT-4/Claude/LLaMA-2-chat, verwendet normalerweise RLHF, um An Benutzerpräferenzen anpassen. PPO ist zum Algorithmus der Wahl für die Durchführung von RLHF für die oben genannten Modelle geworden. Bei der Bereitstellung der Modelle werden jedoch häufig einfache Decodierungsalgorithmen (z. B. Top-P-Sampling) verwendet, um Text aus diesen Modellen zu generieren.

Der Autor dieses Artikels schlägt vor, eine Variante des Monte-Carlo-Tree-Search-Algorithmus (MCTS) zu verwenden, um das PPO-Modell zu dekodieren, und nennt die Methode PPO-MCTS. Diese Methode basiert auf einem Wertemodell, das die Suche nach optimalen Sequenzen leitet. Da es sich bei PPO selbst um einen akteurkritischen Algorithmus handelt, wird während des Trainings als Nebenprodukt ein Wertemodell erzeugt.

PPO-MCTS schlägt vor, dieses Wertemodell als Leitfaden für die MCTS-Suche zu verwenden, und seine Nützlichkeit wird durch theoretische und experimentelle Perspektiven überprüft. Die Autoren fordern Forscher und Ingenieure, die RLHF zum Trainieren von Modellen verwenden, auf, ihre Wertmodelle zu bewahren und als Open Source bereitzustellen.

PPO-MCTS-Dekodierungsalgorithmus

Um ein Token zu generieren, führt PPO-MCTS mehrere Simulationsrunden durch und baut nach und nach einen Suchbaum auf. Die Knoten des Baums stellen die generierten Textpräfixe dar (einschließlich der ursprünglichen Eingabeaufforderung), und die Kanten des Baums stellen die neu generierten Token dar. PPO-MCTS verwaltet eine Reihe statistischer Werte im Baum: verwaltet für jeden Knoten eine Anzahl von Besuchen Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau und einen Durchschnittswert Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau für jede Kante Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau und verwaltet einen Q-Wert Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Der Suchbaum am Ende der Fünf-Runden-Simulation. Die Zahl an einer Kante gibt die Anzahl der Besuche an dieser Kante an.

Der Aufbau des Baums beginnt mit einem Wurzelknoten, der die aktuelle Eingabeaufforderung darstellt. Jede Simulationsrunde umfasst die folgenden vier Schritte:

1. Wähleneinen unerforschten Knoten. Wählen Sie ausgehend vom Wurzelknoten Kanten aus und gehen Sie gemäß der folgenden PUCT-Formel nach unten vor, bis Sie einen unerforschten Knoten erreichen:

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Diese Formel bevorzugt Teilbäume mit hohen Q-Werten und niedrigen Besuchen, sodass Erkundung und Ausbeutung besser ausgeglichen werden können .

2. Erweitern den im vorherigen Schritt ausgewählten Knoten und berechnen Sie die A-priori-Wahrscheinlichkeit des nächsten Tokens Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau mithilfe des PPO-Richtlinienmodells.

3. Bewertenden Wert des Knotens. In diesem Schritt wird das Wertemodell des PPO als Schlussfolgerung verwendet. Die Variablen auf diesem Knoten und seinen untergeordneten Kanten werden wie folgt initialisiert:

BacktrackDie leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

und aktualisieren die statistischen Werte im Baum. Verfolgen Sie ausgehend vom neu erkundeten Knoten nach oben zum Wurzelknoten und aktualisieren Sie die folgenden Variablen auf dem Pfad:

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Vier Simulationsschritte in jeder Runde: Auswahl, Erweiterung, Bewertung und Backtracking. Unten rechts ist der Suchbaum nach der ersten Simulationsrunde.

Nach mehreren Simulationsrunden wird die Anzahl der Besuche am Unterrand des Wurzelknotens verwendet, um den nächsten Token zu bestimmen. Token mit einer hohen Anzahl von Besuchen werden mit höherer Wahrscheinlichkeit generiert (hier können Temperaturparameter hinzugefügt werden). zur Kontrolle der Textvielfalt). Die Eingabeaufforderung des neuen Tokens wird im nächsten Schritt als Wurzelknoten des Suchbaums hinzugefügt. Wiederholen Sie diesen Vorgang, bis die Generierung abgeschlossen ist.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Der Suchbaum nach der 2., 3., 4. und 5. Simulationsrunde.

Im Vergleich zur traditionellen Monte-Carlo-Baumsuche sind die Neuerungen von PPO-MCTS:

1 Im PUCT des Auswahlschritts wird der Q-Wert anstelle des Durchschnittswerts Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau in der Originalversion verwendet. Dies liegt daran, dass PPO einen aktionsspezifischen KL-Regularisierungsterm in der Belohnung Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau jedes Tokens enthält, um die Parameter des Richtlinienmodells innerhalb des Vertrauensintervalls zu halten. Durch die Verwendung des Q-Werts kann dieser Regularisierungsterm beim Dekodieren korrekt berücksichtigt werden: Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

2 Im Schritt

Bewertung wird der Q-Wert der Unterkante des neu untersuchten Knotens auf den Bewertungswert des Knotens initialisiert ( anstelle der Originalversion der MCTS-Nullinitialisierung in ). Diese Änderung behebt ein Problem, bei dem PPO-MCTS in die volle Auslastung gerät.

3. Deaktivieren Sie die Erkundung von Knoten im [EOS]-Token-Teilbaum, um undefiniertes Modellverhalten zu vermeiden.

Experiment zur Textgenerierung

Der Artikel führt Experimente zu vier Textgenerierungsaufgaben durch, nämlich: Kontrolle der Textstimmung (Stimmungssteuerung), Reduzierung der Texttoxizität (Toxizitätsreduzierung) und Wissensintrospektion für Fragen und Antworten (Wissensintrospektion) und Universelle Ausrichtung menschlicher Präferenzen (hilfreiche und harmlose Chatbots).

Der Artikel vergleicht PPO-MCTS hauptsächlich mit den folgenden Basismethoden: (1) Verwendung von Top-P-Sampling zur Generierung von Text aus dem PPO-Richtlinienmodell („PPO“ in der Abbildung); (2) Hinzufügen von Best-of auf der Basis von 1 -n Sampling („PPO + Best-of-n“ in der Abbildung).

Der Artikel bewertet die Zielzufriedenheitsrate und die Textkompetenz jeder Methode für jede Aufgabe.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Links: Kontrollieren Sie die Emotionen des Textes; Rechts: Reduzieren Sie die Toxizität des Textes.

Bei der Kontrolle der Textstimmung erreicht PPO-MCTS eine um 30 Prozentpunkte höhere Zielerfüllungsrate als die PPO-Basislinie, ohne die Textflüssigkeit zu beeinträchtigen, und eine um 20 Prozentpunkte höhere Erfolgsquote bei der manuellen Bewertung. Bei der Reduzierung der Texttoxizität ist die durchschnittliche Toxizität des mit dieser Methode generierten Textes 34 % niedriger als die PPO-Basislinie, und die Erfolgsquote bei der manuellen Bewertung ist ebenfalls 30 % höher. Es wird außerdem darauf hingewiesen, dass die Verwendung von Best-of-n-Sampling bei beiden Aufgaben die Textqualität nicht effektiv verbessert.

Die leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau

Links: Wissensselbstbeobachtung für Fragen und Antworten. Rechts: Universelle menschliche Präferenzausrichtung.

Bei der Wissensintrospektion für Fragen und Antworten ist der Nutzen des durch PPO-MCTS generierten Wissens 12 % höher als der der PPO-Basislinie. Bei der allgemeinen Ausrichtung menschlicher Präferenzen verwenden wir den HH-RLHF-Datensatz, um nützliche und harmlose Dialogmodelle zu erstellen, wobei die Gewinnquote bei der manuellen Bewertung um 5 Prozentpunkte höher ist als die PPO-Basislinie.

Abschließend zieht der Artikel anhand der Analyse- und Ablationsexperimente des PPO-MCTS-Algorithmus die folgenden Schlussfolgerungen, um die Vorteile dieses Algorithmus zu untermauern:

  1. Das Wertmodell von PPO eignet sich besser zur Steuerung der Suche als das für PPO verwendete Belohnungsmodell Trainingsaspekte sind effektiver.

  2. Für die von PPO trainierten Strategie- und Wertmodelle ist MCTS eine effektive heuristische Suchmethode, und ihre Wirkung ist besser als bei einigen anderen Suchalgorithmen (z. B. schrittweise Wertedekodierung).

  3. PPO-MCTS hat einen besseren Kompromiss zwischen Belohnung und Fluenz als andere Methoden zur Erhöhung der Belohnungen (z. B. die Verwendung von PPO für mehr Iterationen).

Zusammenfassend zeigt dieser Artikel die Wirksamkeit des Wertemodells bei der Steuerung der Suche durch die Kombination von PPO mit der Monte-Carlo-Baumsuche (MCTS) und veranschaulicht die Verwendung weiterer Schritte der heuristischen Suche in der Modellbereitstellungsphase Höhere Qualität ist ein gangbarer Weg.

Weitere Methoden und experimentelle Details finden Sie im Originalpapier. Titelbild generiert von DALLE-3.

Das obige ist der detaillierte Inhalt vonDie leistungsstarke Kombination aus RLHF- und AlphaGo-Kerntechnologien, UW/Meta, bringt die Textgenerierungsfunktionen auf ein neues Niveau. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

In Verbindung stehende Artikel

Mehr sehen