Heim >Technologie-Peripheriegeräte >KI >Meta entwickelt die System 2-Destillationstechnologie und die Aufgabengenauigkeit des Llama 2-Dialogmodells liegt bei nahezu 100 %
Forscher sagen, dass die System-2-Destillation, wenn sie zu einem wichtigen Merkmal zukünftiger kontinuierlich lernender KI-Systeme werden kann, die Leistung von Inferenzaufgaben, bei denen System 2 schlecht abschneidet, weiter verbessern kann.
Wenn es um LLM-Strategien (Large Language Model) geht, gibt es im Allgemeinen zwei Typen: der eine ist das unmittelbare System 1 (schnelle Reaktion) und der andere ist das System 2 (langsames Denken).
Während System 2-Denken nachdenkliches Denken begünstigt, ermöglicht generatives Zwischendenken dem Modell (oder dem Menschen), zu argumentieren und zu planen, um eine Aufgabe erfolgreich abzuschließen oder auf Anweisungen zu reagieren. Beim Denken nach System 2 ist eine anstrengende geistige Aktivität erforderlich, insbesondere in Situationen, in denen System 1 (automatisches Denken) schief gehen kann.
Daher ist System 1 als eine Anwendung von Transformer definiert, die Antworten basierend auf Eingaben direkt generieren kann, ohne Zwischentoken zu generieren. System 2 ist als jede Methode definiert, die ein Zwischentoken generiert, einschließlich Methoden, die eine Suche oder mehrere Eingabeaufforderungen durchführen und dann schließlich eine Antwort generieren.
Die Branche hat eine Reihe verwandter System 2-Technologien vorgeschlagen, darunter Denkkette, Denkbaum, Denkkarte, Zweigauflösung und -zusammenführung, System 2 Attention, Rephrase and Respond (RaR) usw. Viele Methoden liefern dank dieser expliziten Inferenz genauere Ergebnisse, allerdings ist dies oft mit höheren Inferenzkosten und Antwortlatenz verbunden. Daher werden viele dieser Methoden in Produktionssystemen nicht verwendet und werden hauptsächlich in System 1 verwendet.
Für Menschen ist der Prozess des Lernens, Fähigkeiten von bewusst (System 2) auf automatisch (System 1) zu übertragen, in der Psychologie als Automatismus und die Nutzung des prozeduralen Gedächtnisses bekannt. Wenn Menschen beispielsweise zum ersten Mal mit dem Auto zur Arbeit fahren, investieren sie oft bewusste Anstrengungen in die Planung und Entscheidungsfindung, um an ihr Ziel zu gelangen. Nachdem der Fahrer diese Route wiederholt hat, wird der Fahrvorgang im Unterbewusstsein „kompiliert“. Ebenso können Sportarten wie Tennis zur „zweiten Natur“ werden.
In diesem Artikel untersuchen Forscher von Meta FAIR einen ähnlichen KI-Modellansatz. Diese Methode führt die Kompilierung auf unbeaufsichtigte Weise anhand einer Reihe unbeschrifteter Beispiele durch und wird als System-2-Destillation bezeichnet. Für jedes Beispiel wenden sie eine bestimmte System-2-Methode an und messen dann unbeaufsichtigt die Qualität der Vorhersagen.
Bei Aufgaben mit eindeutigen Antworten wenden Forscher beispielsweise Selbstkonsistenz an und führen mehrere Stichproben durch. Für ein ausreichend konsistentes Beispiel von System 2 gehen sie davon aus, dass dieses Ergebnis destilliert und dem Destillationspool hinzugefügt werden sollte. System 1 wird dann feinabgestimmt, um die Vorhersagen der Methode von System 2 auf den Pool der gesammelten Beispiele abzustimmen, jedoch ohne die Generierung von Zwischenschritten. Abbildung 1 unten zeigt den Gesamtprozess der Destillation von System 2 in System 1.
Die Forscher führten Experimente mit 4 verschiedenen System-2-LLM-Methoden und 5 verschiedenen Aufgaben durch. Es wurde festgestellt, dass unsere Methode das Denken von System 2 in verschiedenen Situationen in System 1 zurückdestillieren kann, manchmal sogar besser als die Ergebnisse von System 2-Lehrern. Darüber hinaus können diese Vorhersagen jetzt mit einem Bruchteil des Rechenaufwands erstellt werden.
Zum Beispiel fanden sie heraus, dass eine erfolgreiche Destillation auf Aufgaben des Umgangs mit voreingenommenen Meinungen oder irrelevanten Informationen (System 2 Aufmerksamkeit), der Klärung und Verbesserung von Antworten bei bestimmten Argumentationsaufgaben (RaR) und der feinkörnigen Bewertung von LLMs (Branchen-) anwendbar ist. Auflösen – zusammenführen).
Allerdings können nicht alle Aufgaben in System 1 destilliert werden, insbesondere komplexe mathematische Denkaufgaben, die eine Denkkette erfordern. Dies spiegelt sich auch beim Menschen wider, der bestimmte Aufgaben nicht ohne durchdachtes System-2-Argument ausführen kann.
Papieradresse: https://arxiv.org/pdf/2407.06023v2
System 2 zurück zu System 1 destillieren
Einrichtung: System 1- und System 2-Modelle
Angegeben eine Eingabe x, Die Forscher überlegten, ein einzelnes Modell einzurichten, in ihrem Fall ein großes Sprachmodell (LLM), das zwei Antwortmodi implementieren konnte:
System 1: Ausgabe y direkt generieren. Bei diesem Ansatz werden Schichten eines zugrunde liegenden autoregressiven neuronalen Netzwerks (Transformer) weitergeleitet, um Ausgabetokens zu generieren.
System 2. Solche Methoden verwenden den zugrunde liegenden Transformer, um jede Art von Zwischenausgabetoken z zu generieren, bevor das endgültige Antworttoken generiert wird, möglicherweise einschließlich mehrerer Aufrufe (Hinweise).
Formal behandeln Forscher das System-2-Modell S_II als eine Funktion, die LLM p_θ und die Eingabe x akzeptiert und LLM wiederholt aufrufen kann, um mithilfe eines bestimmten Algorithmus Zwischenmarker z zu generieren, und dann die Ausgabe y zurückgibt:
System 2-Methoden können mehrere Hinweise, Verzweigungen, Iterationen und Suchen umfassen, während LLM verwendet wird, um Zwischenergebnisse für die weitere Verarbeitung zu generieren. Im Gegensatz dazu berücksichtigt das System 1-Modell nur die ursprüngliche Eingabe, die gekennzeichnete Eingabe Allerdings sind sie anfällig für Rauschen: Einige dieser Antworten können von hoher Qualität sein, während andere von geringer Qualität oder falsch sein können. Für kurze Frage-Antwort- und Argumentationsaufgaben mit kurzen Antworten, oft mit einer eindeutig richtigen (aber unbekannten) Antwort, haben Forscher einen unbeaufsichtigten Managementschritt in Betracht gezogen, um die Qualität der Trainingsdaten zu verbessern. Sie betrachteten die folgenden zwei Varianten, die auf dem Selbstkonsistenzkriterium basieren:
Selbstkonsistenz der Ausgabe: Stichproben Sie S_II (x^i; p_θ) insgesamt N-mal ab und akzeptieren Sie eine Mehrheitsentscheidungsantwort, falls vorhanden keine Mehrheit. Wenn die Abstimmung gewinnt, wird das Beispiel verworfen.Selbstkonsistenz unter Eingabestörung: Stören Sie die Eingabe x^i so, dass die Ausgabe unverändert bleibt, z. B. indem Sie die Reihenfolge der Multiple-Choice-Fragen in der Eingabeaufforderung ändern und S_II für jede Störung berechnen inkonsistent ist, verwerfen Sie das Beispiel.
Dann erhielt der Forscher den synthetischen Datensatz (X_S_II, Y_S_II), wobei X_S_II eine gefilterte Teilmenge von X ist und das Ziel Y_S_II ist. Der letzte Schritt besteht darin, diesen destillierten Trainingssatz zu verwenden, um eine überwachte Feinabstimmung des LLM mit den Parametern p_θ durchzuführen. Normalerweise initialisieren Forscher dieses Modell ausgehend vom aktuellen Zustand p_θ und setzen dann das Training mit neuen Datensätzen fort. Nach der Feinabstimmung erhielten sie ein LLM
, ein System-1-Modell, von dem erwartet wird, dass es ähnliche Ausgabe- und Leistungsverbesserungen wie die bewerteten System-2-Modelle bietet.Für System 1 verwenden Forscher das anweisungsbereinigte Basismodell als Standardbasis für die Zero-Shot-Inferenz. Sie melden aufgabenspezifische Metriken für jede Aufgabe sowie die Metrik „#Tokens“, die die durchschnittliche Anzahl der pro Eingabe im Bewertungssatz generierten Token misst. Die System-2-Methode umfasst die Zwischen-Token-Generierung und die endgültige Ausgabe-Token-Generierung.
Umformulierung und Antwortdestillation
RaR ist ein System-2-Ansatz, der zunächst das Sprachmodell dazu auffordert, die ursprüngliche Frage auf eine noch ausführlichere Weise umzuformulieren, und dann eine Antwort basierend auf der umformulierten Frage generiert, mit dem Ziel, eine Antwort bereitzustellen bessere Ausgabe. Für die Destillationsdaten nutzten die Forscher die Selbstkonsistenz der Ausgabe, um einen System-2-Destillationsdatensatz für RaR zu erstellen. Für jede Eingabe führten sie acht Stichprobeniterationen bei der Aufgabe „Letzter Buchstabe“ und acht Stichprobeniterationen bei jeder Phase der Münzwurfaufgabe durch und verwendeten dann die Mehrheitsabstimmung, um die endgültige Ausgabe zu bestimmen.
Sehen wir uns zunächst die Aufgabe „Verkettung des letzten Buchstabens“ an. Diese Aufgabe konzentriert sich auf symbolisches Denken und erfordert, dass das Modell die letzten Buchstaben eines bestimmten Wortes verbindet. Die Gesamtergebnisse sind in der folgenden Tabelle 1 aufgeführt.
Das Basismodell von System 1 (Llama-2-70B-chat) erreicht eine Genauigkeit von 30,0 %, was niedriger ist als die 1-Schritt- und 2-Schritt-RaR-Methoden von System 2 (39,5 % bzw. 44,5 %). Durch die Rückdestillation der 2-Schritt-RaR-Methode in das System 1 Llama-2-70B-Chat-Modell durch diese unbeaufsichtigte Technik wird eine erstaunliche Genauigkeit von 98,0 % erreicht.
Im Vergleich zu Zero-Shot-Chat-Modellen kann das Modell anhand dieser Trainingsdaten effektiv lernen, wie die Aufgabe gelöst werden kann. Die Destillation von RaR übernimmt effektiv die Vorteile von System 2 und System 1 und behält den Genauigkeitsvorteil von System 2 bei, während die Inferenzkosten denen von System 1 entsprechen.
Kommen Sie zurück zur
Coin Flip Reasoning-Aufgabe
. Bei dieser symbolischen Denkaufgabe, die in der Forschung oft getestet wird, geht es darum, die endgültige Seite einer Münze (Kopf oder Zahl) zu bestimmen, ausgehend von einer bekannten Anfangsposition durch eine Reihe von Würfen, die in natürlicher Sprache beschrieben werden, wie zum Beispiel „Die Münze landet auf Kopf“. .Die Gesamtergebnisse sind in Tabelle 1 oben aufgeführt. Llama-2-70B-chat (Nullstichprobe) hat bei dieser Aufgabe eine Erfolgsquote von 56,1 %, während 1-Step und 2-Step RaR Erfolgsquoten von 58,5 % bzw. 77,2 % haben. Daher wurden mit dem 2-Schritte-Ansatz enorme Verbesserungen erzielt. Die Destillation von 2-Step RaR zurück zu System 1 Llama-2-70B-chat mithilfe unserer unbeaufsichtigten Technik führt zu Ergebnissen von 75,69 %.
Somit bietet das destillierte System 2-Modell eine vergleichbare Leistung wie System 2 (2 Step RaR), jedoch ohne die Notwendigkeit, das LLM-Programm mit 2 Hinweisen auszuführen.
System-2-Aufmerksamkeitsdestillation
Weston und Sukhbaatar (2023) schlugen System 2 Attention (S2A) vor, das dazu beiträgt, Fallstricke bei der Modellinferenz zu reduzieren, wie z. B. das Verlassen auf voreingenommene Informationen in der Eingabe oder die Konzentration auf irrelevanten Kontext.
Die Forscher überprüften die Machbarkeit der Destillation von S2A in System 1, insbesondere in die SycophancyEval-Frage-Antwort-Aufgabe, deren Eingabe verzerrte Informationen enthält, die bekanntermaßen die LLM-Leistung beeinträchtigen.
Die Ergebnisse sind in Tabelle 2 unten aufgeführt und geben die durchschnittliche Genauigkeit von 3 zufälligen Samen an. Wie erwartet weist das Basis-LLM (System1) im voreingenommenen Teil eine geringere Genauigkeit auf und ist anfällig für voreingenommene Eingaben. S2A verbessert die Leistung bei voreingenommenen Eingaben erheblich. Die Destillation mit System 2 weist eine ähnlich starke Leistung wie die Methoden mit System 2 auf.
Weitere experimentelle Ergebnisse finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonMeta entwickelt die System 2-Destillationstechnologie und die Aufgabengenauigkeit des Llama 2-Dialogmodells liegt bei nahezu 100 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!