Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

WBOY
WBOYnach vorne
2023-06-03 16:49:21993Durchsuche

Eines der mysteriösesten Phänomene bei der Entstehung großer Modelle ist Chain of Thought Tips (CoT), das erstaunliche Ergebnisse bei der Lösung mathematischer Argumentations- und Entscheidungsprobleme gezeigt hat. Wie wichtig ist CoT? Was ist der Mechanismus hinter seinem Erfolg? In diesem Artikel beweisen mehrere Forscher der Peking-Universität, dass CoT für die Realisierung von LLM-Inferenzen (Large Language Model) unverzichtbar ist, und zeigen, wie CoT das enorme Potenzial von LLM aus theoretischer und experimenteller Sicht freisetzen kann.

Neueste Untersuchungen haben ergeben, dass Chain of Thought Prompting (CoT) die Leistung großer Sprachmodelle (LLM) erheblich verbessern kann und sich besonders für die Verarbeitung komplexer Aufgaben im Bereich Mathematik oder Argumentation eignet. Doch trotz vieler Erfolge sind die Mechanismen hinter CoTs und die Art und Weise, wie das Potenzial von LLMs freigesetzt werden kann, noch immer unklar.

Kürzlich enthüllte eine neue Studie der Peking-Universität das Geheimnis hinter CoT aus theoretischer Sicht.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Link zum Papier: https://arxiv.org/abs/2305.15408

Transformer-basiertes großes Sprachmodell ist zu einem universellen Modell in der Verarbeitung natürlicher Sprache geworden, das verschiedene Aufgaben erfüllt weit verbreitet. Mainstream-Großmodelle werden in der Regel auf der Grundlage des autoregressiven Paradigmas implementiert. Insbesondere können verschiedene Aufgaben (z. B. Textübersetzung, Textgenerierung, Beantwortung von Fragen usw.) einheitlich als Sequenzgenerierungsprobleme angesehen werden, bei denen die Eingabe der Frage und die Beschreibung erfolgen der Frage werden in einer Wortfolge (Token) zusammengefasst, die als Eingabeaufforderung (Eingabeaufforderung) bezeichnet wird. Die Antwort auf die Frage kann in die Aufgabe umgewandelt werden, auf der Grundlage der Eingabeaufforderung nachfolgende Wörter bedingt zu generieren.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Eine Vielzahl von Studien im Bereich großer Modelle haben gezeigt, dass sorgfältig gestaltete Aufforderungswörter eine entscheidende Rolle für die Leistung des Modells spielen. Insbesondere bei Rechen- oder Denkaufgaben kann CoT nachweislich die Richtigkeit der generierten Antworten deutlich verbessern. Wie in der Abbildung unten gezeigt, sind bei einer Aufgabe, die mathematisches Denken erfordert, die direkt vom großen Modell generierten Antworten oft falsch (Abbildungen a,b unten). Wenn Sie jedoch die Eingabeaufforderungen so ändern, dass das große Modell die gesamte Denkkette ausgibt (Zwischenableitungsschritte), erhalten Sie schließlich die richtige Antwort (c, d unten).

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

In der Praxis gibt es zwei gängige Möglichkeiten, die Gedankenkettenaufforderung umzusetzen: Eine besteht darin, der Aufforderung einen bestimmten Satz hinzuzufügen, z. B. „Lass uns Schritt für Schritt denken“, um sie auszulösen (wie gezeigt). Die andere Möglichkeit besteht darin, dem großen Modell die Simulation des entsprechenden Ableitungsprozesses zu ermöglichen, indem eine kleine Anzahl von Beispielen für die Demonstration der Denkkette bereitgestellt wird (wie in Abbildung d oben dargestellt).

Obwohl CoT in einer Vielzahl von Experimenten bemerkenswerte Leistungen erbracht hat, bleibt der theoretische Mechanismus dahinter ein Rätsel. Einerseits weisen große Modelle tatsächlich inhärente theoretische Mängel bei der direkten Beantwortung von Fragen zu Mathematik, Argumentation usw. auf? Warum kann CoT andererseits die Fähigkeiten großer Modelle bei diesen Aufgaben verbessern? Dieser Beitrag beantwortet die oben gestellten Fragen aus theoretischer Sicht.

Konkret untersuchen Forscher CoT aus der Perspektive der Modellausdrucksfähigkeit: Für mathematische Aufgaben und allgemeine Entscheidungsaufgaben untersucht dieser Artikel die Ausdrucksfähigkeit des Transformer-Modells basierend auf Autoregression in den folgenden zwei Aspekten: (1) Generieren Antworten direkt zu beantworten und (2) vollständige Lösungsschritte mithilfe von CoT zu generieren.

CoT ist der Schlüssel zur Lösung mathematischer Probleme

Große Modelle, die durch GPT-4 repräsentiert werden, haben schockierende mathematische Fähigkeiten bewiesen. Beispielsweise kann es die meisten Mathematikaufgaben in der Oberstufe richtig lösen und ist sogar zu einem Forschungsassistenten für Mathematiker geworden.

Um die mathematischen Fähigkeiten großer Modelle zu untersuchen, wurden in diesem Artikel zwei sehr grundlegende, aber zentrale mathematische Aufgaben ausgewählt: Arithmetik und Gleichungen (die folgende Abbildung enthält Beispiele für die Eingabe und Ausgabe dieser beiden Aufgaben). Da sie grundlegende Komponenten für die Lösung komplexer mathematischer Probleme sind, können wir durch die Untersuchung dieser beiden zentralen mathematischen Probleme ein tieferes Verständnis der Fähigkeiten großer Modelle für allgemeine mathematische Probleme erlangen.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Die Forscher untersuchten zunächst, ob Transformer Antworten auf die oben genannten Fragen ausgeben kann, ohne Zwischenschritte auszugeben. Sie betrachteten eine Annahme, die sehr mit der Realität übereinstimmt – einen Transformator mit logarithmischer Genauigkeit, das heißt, jedes Neuron des Transformators kann nur eine Gleitkommazahl mit begrenzter Genauigkeit darstellen (die Genauigkeit beträgt log n Bits), wobei n die maximale Länge ist des Satzes. Diese Annahme kommt der Realität sehr nahe, zum Beispiel ist in GPT-3 die Maschinengenauigkeit (16 oder 32 Bit) normalerweise viel kleiner als die maximale Länge des Ausgabesatzes (2048).

Unter dieser Annahme haben die Forscher ein im Kern unmögliches Ergebnis bewiesen: Für ein autoregressives Transformer-Modell mit einer konstanten Schicht und einer Breite von d ist es bei der Lösung der beiden oben genannten mathematischen Probleme durch direkte Ausgabe von Antworten erforderlich Verwenden Sie extrem große Modellbreite d. Insbesondere muss d mit zunehmender Eingabelänge n größer als das Polynom werden.

Der wesentliche Grund für dieses Ergebnis ist, dass es für die beiden oben genannten Probleme keinen effizienten parallelen Algorithmus gibt, sodass Transformer sie als typisches paralleles Modell nicht lösen kann. Der Artikel verwendet die Schaltungskomplexitätstheorie in der theoretischen Informatik, um den obigen Satz rigoros zu beweisen.

Was passiert also, wenn das Modell die Antwort nicht direkt ausgibt, sondern die Zwischenableitungsschritte in Form der obigen Abbildung ausgibt? Die Forscher bewiesen außerdem durch Konstruktion, dass, wenn das Modell Zwischenschritte ausgeben kann, ein autoregressives Transformer-Modell fester Größe (unabhängig von der Eingabelänge n) die beiden oben genannten mathematischen Probleme lösen kann. Ein Vergleich der vorherigen Ergebnisse zeigt, dass das Hinzufügen von CoT die Ausdrucksfähigkeit großer Modelle erheblich verbessert. Darüber hinaus vermittelten die Forscher ein intuitives Verständnis dafür: Dies liegt daran, dass die Einführung von CoT die generierten Ausgabewörter kontinuierlich an die Eingabeschicht zurückmeldet, was die effektive Tiefe des Modells erheblich erhöht und es proportional zur Ausgabelänge von CoT macht. Dadurch wurde die Effizienz des Modells erheblich verbessert. Die parallele Komplexität von Transformer wurde erheblich verbessert.

CoT ist der Schlüssel zur Lösung allgemeiner Entscheidungsprobleme

Zusätzlich zu mathematischen Problemen untersuchten die Forscher außerdem die Fähigkeit von CoT, allgemeine Aufgaben zu lösen. Ausgehend vom Entscheidungsproblem betrachteten sie einen allgemeinen Rahmen zur Lösung von Entscheidungsproblemen, der als dynamische Programmierung bezeichnet wird.

Die Grundidee der dynamischen Programmierung (DP) besteht darin, ein komplexes Problem in eine Reihe kleiner Teilprobleme zu zerlegen, die nacheinander gelöst werden können. Durch die Zerlegung des Problems wird sichergestellt, dass zwischen den verschiedenen Teilproblemen eine signifikante Wechselbeziehung (Überlappung) besteht, sodass jedes Teilproblem mithilfe der Antworten auf die vorherigen Teilprobleme effizient gelöst werden kann.

Die längste aufsteigende Teilfolge (LIS) und die Lösung des Bearbeitungsabstands (ED) sind zwei berühmte DP-Probleme, die im Buch „Einführung in Algorithmen“ vorgeschlagen werden. Die folgende Tabelle listet die Zustandsräume und Übergänge dieser beiden Probleme auf der Funktion.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Forscher haben bewiesen, dass das autoregressive Transformer-Modell eine vollständige dynamische Programmier-Denkkette in der Reihenfolge der Lösung von Unterproblemen ausgeben kann, sodass es für alle lösbaren Aufgaben ausgegeben werden kann dynamische Programmierung Richtige Antwort. Ebenso zeigten die Forscher weiter, dass generative Denkketten notwendig sind: Für viele schwierige dynamische Programmierprobleme kann ein Transformer-Modell mit konstanter Schicht und Polynomgröße nicht direkt die richtige Antwort ausgeben. Der Artikel liefert ein Gegenbeispiel zum Problem des kontextfreien Grammatikmitgliedschaftstests.

Experimente

Die Forscher entwarfen schließlich eine große Anzahl von Experimenten, um die obige Theorie zu verifizieren, wobei sie vier verschiedene Aufgaben berücksichtigten: die Auswertung arithmetischer Ausdrücke, die Lösung linearer Gleichungen, die Lösung der längsten aufsteigenden Teilfolge und die Lösung der Bearbeitungsdistanz.

Experimentelle Ergebnisse zeigen, dass ein dreischichtiges autoregressives Transformer-Modell beim Training mit CoT-Daten bei allen Aufgaben eine nahezu perfekte Leistung erzielen konnte. Die direkte Ausgabe der richtigen Antwort ist jedoch bei allen Aufgaben schlecht (auch bei tieferen Modellen). Dieses Ergebnis zeigt deutlich die Fähigkeit des autoregressiven Transformators, eine Vielzahl komplexer Aufgaben zu lösen, und zeigt die Bedeutung von CoT bei der Lösung dieser Aufgaben.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Die Forscher untersuchten auch, ob das erlernte autoregressive Modell weiter auf längere Daten extrapoliert werden kann. Sie erstellten einen CoT-Trainingsdatensatz für die Operationsaufgabe, wobei die Anzahl der Operatoren zwischen 1 und 15 lag, und testeten das Modell anhand von Ausdrücken mit der Anzahl der Operatoren n ∈ {16, 17, 18}. Die Ergebnisse sind in Abbildung 3 unten dargestellt. Das dreischichtige Transformer-Modell des Forschers funktioniert bei längeren Sequenzen immer noch gut, was darauf hindeutet, dass das Modell den zugrunde liegenden Mechanismus tatsächlich bis zu einem gewissen Grad gelernt hat. Daher glauben die Forscher, dass Modelle, die auf mehr Daten unterschiedlicher Länge trainiert wurden, letztendlich die vollständigen Regeln der Arithmetik offenbaren können.

Wie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter

Das obige ist der detaillierte Inhalt vonWie setzt die Denkkette die verborgenen Fähigkeiten von Sprachmodellen frei? Die neuesten theoretischen Forschungen enthüllen das Geheimnis dahinter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen