Heim >Technologie-Peripheriegeräte >KI >Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne
2024-01-17 11:51:051450Durchsuche

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation

Große Sprachmodelle (LLMs) eignen sich gut für Inferenzaufgaben, aber ihre Black-Box-Eigenschaften und die große Anzahl von Parametern schränken ihre Anwendung in der Praxis ein. Insbesondere bei der Bearbeitung komplexer mathematischer Probleme entwickeln LLMs manchmal fehlerhafte Argumentationsketten. Herkömmliche Forschungsmethoden übertragen nur Wissen aus positiven Proben und ignorieren wichtige Informationen mit falschen Antworten in synthetischen Daten. Um die Leistung und Zuverlässigkeit von LLMs zu verbessern, müssen wir daher synthetische Daten umfassender berücksichtigen und nutzen und uns nicht nur auf positive Stichproben beschränken, um LLMs dabei zu helfen, komplexe Probleme besser zu verstehen und zu begründen. Dies wird dazu beitragen, die Herausforderungen von LLMs in der Praxis zu lösen und ihre breite Anwendung zu fördern.

Auf der AAAI 2024 schlug das Xiaohongshu-Suchalgorithmus-Team ein innovatives Framework vor, das negatives Stichprobenwissen bei der Destillation großer Modellschlussfähigkeiten vollständig nutzt. Negative Stichproben, also solche Daten, die während des Inferenzprozesses keine korrekten Antworten liefern, werden oft als nutzlos angesehen, tatsächlich enthalten sie jedoch wertvolle Informationen.

Der Artikel schlägt den Wert negativer Proben im Destillationsprozess großer Modelle vor und verifiziert ihn und baut einen Modellspezialisierungsrahmen auf: Neben der Verwendung positiver Proben werden auch negative Proben vollständig genutzt, um das Wissen über LLM zu verfeinern. Das Framework umfasst drei Serialisierungsschritte, darunter Negative Assisted Training (NAT), Negative Calibration Enhancement (NCE) und Dynamic Self-Consistency (ASC), die den gesamten Prozess vom Training bis zur Inferenz abdecken. Durch eine umfangreiche Reihe von Experimenten demonstrieren wir die entscheidende Rolle negativer Daten bei der LLM-Wissensdestillation.

1. Hintergrund

In der aktuellen Situation haben große Sprachmodelle (LLMs) unter der Führung der Chain of Thought (CoT) leistungsstarke Argumentationsfähigkeiten bewiesen. Wir haben jedoch gezeigt, dass diese neue Fähigkeit nur durch Modelle mit Hunderten Milliarden Parametern erreicht werden kann. Da diese Modelle enorme Rechenressourcen und hohe Inferenzkosten erfordern, sind sie unter Ressourcenbeschränkungen nur schwer anzuwenden. Daher ist es unser Forschungsziel, kleine Modelle zu entwickeln, die komplexe arithmetische Schlussfolgerungen für den groß angelegten Einsatz in realen Anwendungen ermöglichen.

Wissensdestillation bietet eine effiziente Möglichkeit, die spezifischen Fähigkeiten von LLMs in kleinere Modelle zu übertragen. Dieser Prozess, auch Modellspezialisierung genannt, zwingt kleine Modelle dazu, sich auf bestimmte Fähigkeiten zu konzentrieren. Frühere Forschungen nutzen kontextuelles Lernen (ICL) von LLMs, um Argumentationspfade für mathematische Probleme zu generieren, und verwenden sie als Trainingsdaten, die kleinen Modellen dabei helfen, komplexe Argumentationsfähigkeiten zu erwerben. Allerdings verwendeten diese Studien nur die generierten Inferenzpfade mit korrekten Antworten (d. h. positive Stichproben) als Trainingsbeispiele und ignorierten das wertvolle Wissen in den Inferenzschritten mit falschen Antworten (d. h. negativen Stichproben). Daher begannen Forscher zu untersuchen, wie die Inferenzschritte in negativen Stichproben genutzt werden können, um die Leistung kleiner Modelle zu verbessern. Ein Ansatz besteht darin, kontradiktorisches Training zu verwenden, bei dem ein Generatormodell eingeführt wird, um Rückschlusspfade für falsche Antworten zu generieren, und diese Pfade dann zusammen mit positiven Beispielen verwendet werden, um ein kleines Modell zu trainieren. Auf diese Weise kann das kleine Modell im Fehlerbegründungsschritt wertvolles Wissen erlernen und seine Argumentationsfähigkeit verbessern. Ein anderer Ansatz besteht darin, selbstüberwachtes Lernen zu nutzen, indem man richtige Antworten mit falschen Antworten vergleicht und ein kleines Modell lernen lässt, zwischen ihnen zu unterscheiden und daraus nützliche Informationen zu extrahieren. Diese Methoden können ein umfassenderes Training für kleine Modelle ermöglichen und ihnen leistungsfähigere Argumentationsfähigkeiten verleihen. Kurz gesagt: Die Verwendung der Inferenzschritte in negativen Stichproben kann kleinen Modellen dabei helfen, ein umfassenderes Training zu erhalten und ihre Inferenzfähigkeiten zu verbessern. Diese Art von

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBild

ist in der Abbildung dargestellt. Tabelle 1 zeigt ein interessantes Phänomen: Die auf positiven und negativen Beispieldaten trainierten Modelle weisen nur sehr geringe Überschneidungen bei den genauen Antworten auf den MATH-Testsatz auf. Obwohl das mit negativen Stichproben trainierte Modell weniger genau ist, kann es einige Fragen lösen, die das positive Stichprobenmodell nicht richtig beantworten kann, was bestätigt, dass die negativen Stichproben wertvolles Wissen enthalten. Darüber hinaus können fehlerhafte Verknüpfungen in negativen Stichproben dazu beitragen, dass das Modell ähnliche Fehler vermeidet. Ein weiterer Grund, warum wir negative Stichproben nutzen sollten, ist die tokenbasierte Preisstrategie von OpenAI. Selbst die Genauigkeit von GPT-4 im MATH-Datensatz beträgt weniger als 50 %, was bedeutet, dass eine große Menge an Token verschwendet wird, wenn nur positives Stichprobenwissen genutzt wird. Daher schlagen wir vor, negative Proben nicht direkt zu verwerfen, sondern wertvolles Wissen daraus zu extrahieren und zu nutzen, um die Spezialisierung kleiner Modelle zu verbessern.

Der Modellspezialisierungsprozess lässt sich im Allgemeinen in drei Schritte zusammenfassen:

1) Gedankenkettendestillation unter Verwendung der von LLMs generierten Inferenzkette, um ein kleines Modell zu trainieren.

2) Selbstverbesserung: Führen Sie eine Selbstdestillation oder Datenselbsterweiterung durch, um das Modell weiter zu optimieren.

3) Selbstkonsistenz wird häufig als wirksame Dekodierungsstrategie zur Verbesserung der Modellleistung bei Inferenzaufgaben eingesetzt.

In dieser Arbeit schlagen wir ein neues Modellspezialisierungs-Framework vor, das negative Stichproben vollständig nutzen und die Extraktion komplexer Inferenzfunktionen aus LLMs erleichtern kann.

  • Wir haben zunächst die Methode Negative Assisted Training (NAT) entwickelt, bei der die Dual-LoRA-Struktur darauf ausgelegt ist, Wissen sowohl aus positiven als auch aus negativen Aspekten zu erwerben. Als Hilfsmodul kann das Wissen über negatives LoRA durch den korrigierenden Aufmerksamkeitsmechanismus dynamisch in den Trainingsprozess von positivem LoRA integriert werden.
  • Zur Selbstverbesserung entwickeln wir Negative Calibration Enhancement (NCE), das den negativen Output als Grundlage nimmt, um die Destillation wichtiger Vorwärtsbegründungsverbindungen zu stärken.
  • Neben der Trainingsphase nutzen wir auch negative Informationen während des Inferenzprozesses. Herkömmliche Selbstkonsistenzmethoden weisen allen Kandidatenausgaben gleiche oder wahrscheinlichkeitsbasierte Gewichtungen zu, was dazu führt, dass für einige unzuverlässige Antworten gestimmt wird. Um dieses Problem zu lindern, wird die Methode „Dynamische Selbstkonsistenz (ASC)“ zum Sortieren vor der Abstimmung vorgeschlagen, bei der das Sortiermodell anhand positiver und negativer Stichproben trainiert wird.
  • 2. Methode

Das von uns vorgeschlagene Framework verwendet LLaMA als Grundmodell und besteht hauptsächlich aus drei Teilen, wie in der Abbildung gezeigt:

  • Schritt 1: Trainieren Sie negatives LoRA durch Zusammenführen. Die Einheit hilft Erlernen Sie das Schlussfolgerungswissen über positive Proben Schritt 3: Ein Ranking-Modell wird auf positive und negative Stichproben trainiert, und Kandidaten-Inferenz-Links werden während der Inferenz adaptiv entsprechend ihren Bewertungen gewichtet. 2.1 Negative Assistance Training (NAT) Integrationseinheit besteht aus zwei Teilen:
    2.1.1 Negative Wissensabsorption
  • Durch Maximierung der folgenden Erwartung an negative Daten
    wird das Wissen über negative Proben von LoRA θ absorbiert. Während dieses Vorgangs bleiben die Parameter von LLaMA eingefroren. 2.1.2 Dynamische integrierte Einheit In der folgenden Abbildung wird das Wissen aus θ
  • zur Erleichterung des Lernens positiver Beispielkenntnisse dynamisch integriert:

BilderDas Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation

Wir frieren θ

ein, um zu verhindern, dass internes Wissen entsteht vergessen und zusätzlich das positive LoRA-Modul θ einführen. Idealerweise sollten wir positive und negative LoRA-Module vorwärts integrieren (die Ausgaben in jeder LLaMA-Schicht werden als und dargestellt), um das nützliche Wissen zu ergänzen, das in den positiven Proben fehlt, aber entspricht. Wenn θ

schädliches Wissen enthält, sollten wir eine negative Integration positiver und negativer LoRA-Module durchführen, um mögliches schlechtes Verhalten in positiven Proben zu reduzieren.

Wir schlagen einen korrigierenden Aufmerksamkeitsmechanismus vor, um dieses Ziel wie folgt zu erreichen:

Bilder

Bilder

Wir verwenden

als Abfrage, um die Aufmerksamkeitsgewichte von und zu berechnen. Durch Hinzufügen des Korrekturterms [0,5; -0,5] wird das Aufmerksamkeitsgewicht von auf den Bereich von [-0,5, 0,5] begrenzt, wodurch der Effekt einer adaptiven Integration von Wissen sowohl aus positiver als auch aus negativer Richtung erzielt wird. Schließlich bildet die Summe von

und der Ausgabe der LLaMA-Schicht die Ausgabe der dynamischen Integrationseinheit.

2.2 Negative Calibration Enhancement (NCE)

Um die Denkfähigkeit des Modells weiter zu verbessern, schlagen wir Negative Calibration Enhancement (NCE) vor, das negatives Wissen nutzt, um den Selbstverbesserungsprozess zu unterstützen. Wir verwenden NAT zunächst, um Paare als Erweiterungsbeispiele für jede Frage zu generieren und sie in den Trainingsdatensatz einzufügen. Was den Selbstdestillationsteil betrifft, stellen wir fest, dass einige Proben möglicherweise kritischere Inferenzschritte enthalten, die für die Verbesserung der Inferenzfähigkeit des Modells von entscheidender Bedeutung sind. Unser Hauptziel ist es, diese kritischen Inferenzschritte zu identifizieren und ihr Lernen während der Selbstdestillation zu verbessern.

Wenn man bedenkt, dass NAT bereits nützliches Wissen über θ

enthält, sind die Faktoren, die NAT über stärkere Denkfähigkeiten als θ

verfügen, implizit in den inkonsistenten Denkverbindungen zwischen den beiden enthalten. Daher verwenden wir die KL-Divergenz, um diese Inkonsistenz zu messen und die Erwartung dieser Formel zu maximieren:

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

Bilder

Je größer der β-Wert ist Je höher der Unterschied zwischen den beiden ist, desto mehr kritisches Wissen enthält die Stichprobe. Durch die Einführung von β zur Anpassung des Verlustgewichts verschiedener Proben kann NCE das in NAT eingebettete Wissen gezielt erlernen und verbessern.

2.3 Dynamische Selbstkonsistenz (ASC)

Selbstkonsistenz (SC) ist wirksam bei der weiteren Verbesserung der Leistung des Modells beim komplexen Denken. Aktuelle Methoden weisen jedoch entweder jedem Kandidaten die gleiche Gewichtung zu oder weisen einfach Gewichtungen basierend auf Generationswahrscheinlichkeiten zu. Diese Strategien können die Kandidatengewichte nicht entsprechend der Qualität von (rˆ, yˆ) während der Abstimmungsphase anpassen, was die Auswahl des richtigen Kandidaten erschweren kann. Zu diesem Zweck schlagen wir die dynamische Selbstkonsistenzmethode (ASC) vor, die positive und negative Daten verwendet, um ein Ranking-Modell zu trainieren und Kandidaten-Inferenzlinks adaptiv neu zu gewichten.

2.3.1 Ranking-Modell-Training

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationIdealerweise möchten wir, dass das Ranking-Modell den Inferenzlinks, die zur richtigen Antwort führen, höhere Gewichtungen zuweist und umgekehrt. Daher erstellen wir die Trainingsbeispiele auf folgende Weise:

Bilder

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation und verwenden MSE-Verlust, um das Ranking-Modell zu trainieren:

Bilder

2.3.2 Gewichtungsstrategie

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation Wir ändern die Abstimmungsstrategie auf die folgende Formel, um das Ziel der adaptiven Neugewichtung von Kandidaten-Inferenzlinks zu erreichen:

Bild

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationDie folgende Abbildung zeigt den Ablauf der ASC-Strategie:

Bild

Aus der Perspektive des Wissenstransfers implementiert ASC eine weitere Nutzung des Wissens (positiv und negativ) aus LLMs, um kleinen Modellen zu einer besseren Leistung zu verhelfen.

3. Experiment

🎜🎜Diese Studie konzentriert sich auf den anspruchsvollen Datensatz zum mathematischen Denken MATH, der insgesamt 12.500 Fragen zu sieben verschiedenen Themen umfasst. Darüber hinaus führen wir die folgenden vier Datensätze ein, um die Generalisierungsfähigkeit des vorgeschlagenen Frameworks auf Out-of-Distribution-Daten (OOD) zu bewerten: GSM8K, ASDiv, MultiArith und SVAMP. 🎜🎜

Für das Lehrermodell verwenden wir die APIs gpt-3.5-turbo und gpt-4 von Open AI, um die Inferenzkette zu generieren. Für das Studentenmodell wählen wir LLaMA-7b.

In unserer Forschung gibt es zwei Haupttypen von Basislinien: Die eine sind große Sprachmodelle (LLMs) und die andere basiert auf LLaMA-7b. Was LLMs betrifft, vergleichen wir sie mit zwei beliebten Modellen: GPT3 und PaLM. Für LLaMA-7b stellen wir zunächst unsere Methode zum Vergleich mit drei Einstellungen vor: Few-shot, Fine-tune (an Original-Trainingsbeispielen), CoT KD (Chain of Thought Distillation). Im Hinblick auf das Lernen aus der negativen Perspektive werden auch vier Basismethoden einbezogen: MIX (Training von LLaMA direkt mit einer Mischung aus positiven und negativen Daten), CL (kontrastives Lernen), NT (negatives Training) und UL (Nicht-Likelihood-Verlust). ) ).

3.1 NAT-Experimentelle Ergebnisse

Alle Methoden verwenden eine gierige Suche (d. h. Temperatur = 0), und die experimentellen Ergebnisse von NAT sind in der Abbildung dargestellt, was zeigt, dass die vorgeschlagene NAT-Methode die Genauigkeit der Aufgabe auf allen Basislinien verbessert.

Wie aus den niedrigen Werten von GPT3 und PaLM ersichtlich ist, ist MATH ein sehr schwieriger mathematischer Datensatz, aber NAT kann mit sehr wenigen Parametern immer noch eine gute Leistung erbringen. Im Vergleich zur Feinabstimmung von Rohdaten erreicht NAT unter zwei verschiedenen CoT-Quellen eine Verbesserung von etwa 75,75 %. NAT verbessert auch die Genauigkeit im Vergleich zu CoT KD bei positiven Proben erheblich, was den Wert negativer Proben verdeutlicht.

Bei der Verwendung negativer Informationsbasislinien deutet die geringe Leistung von MIX darauf hin, dass das direkte Training negativer Proben zu einer schlechten Leistung des Modells führt. Auch andere Methoden sind NAT meist unterlegen, was zeigt, dass es bei komplexen Argumentationsaufgaben nicht ausreicht, nur negative Stichproben in die negative Richtung zu verwenden.

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

3.2 NCE-Experimentergebnisse

Wie in der Abbildung gezeigt, erzielt NCE im Vergleich zur Wissensdestillation (KD) eine durchschnittliche Verbesserung von 10 % (0,66), was die Verwendung von Negativ beweist Proben Gültigkeit der für die Destillation bereitgestellten Kalibrierungsinformationen. Obwohl NCE im Vergleich zu NAT einige Parameter reduziert, weist es dennoch eine Verbesserung von 6,5 % auf, wodurch der Zweck der Komprimierung des Modells und der Verbesserung der Leistung erreicht wird.

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

3.3 ASC-Experimentalergebnisse

Um ASC zu bewerten, vergleichen wir es mit Basis-SC und gewichtetem (WS) SC, wobei wir die Probentemperatur T = 1 verwenden und 16 Proben generieren. Wie in der Abbildung dargestellt, zeigen die Ergebnisse, dass ASC, das Antworten aus verschiedenen Stichproben aggregiert, eine vielversprechendere Strategie ist.

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

3.4 Ergebnisse des Generalisierungsexperiments

Zusätzlich zum MATH-Datensatz haben wir die Generalisierungsfähigkeit des Frameworks für andere mathematische Denkaufgaben bewertet. Die experimentellen Ergebnisse sind wie folgt.

Das Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten ModelldestillationBilder

4. Fazit

Diese Arbeit untersucht die Wirksamkeit der Verwendung negativer Stichproben, um komplexe Argumentationsfähigkeiten aus großen Sprachmodellen zu extrahieren und sie auf spezialisierte kleine Modelle zu übertragen. „Das Xiaohongshu Search Algorithm Team“ schlug ein brandneues Framework vor, das aus drei Serialisierungsschritten besteht und negative Informationen während des gesamten Prozesses der Modellspezialisierung vollständig nutzt. Negative Assistance Training (NAT) kann eine umfassendere Möglichkeit bieten, negative Informationen aus zwei Perspektiven zu nutzen. Negative Calibration Enhancement (NCE) ist in der Lage, den Selbstdestillationsprozess so zu kalibrieren, dass er Schlüsselwissen gezielter beherrschen kann. Ein auf beide Gesichtspunkte trainiertes Ranking-Modell kann der Antwortaggregation geeignetere Gewichtungen zuweisen, um eine dynamische Selbstkonsistenz (ASC) zu erreichen. Umfangreiche Experimente zeigen, dass unser Framework die Effektivität der Verfeinerung der Argumentationsfähigkeiten durch die generierten negativen Stichproben verbessern kann.

Papieradresse:

https://www.php.cn/link/8fa2a95ee83cd1633cfd64f78e856bd35. Vorstellung des Autors

  • Veröffentlichte mehrere Artikel in Top-Konferenzen/Zeitschriften in den Bereichen maschinelles Lernen und Verarbeitung natürlicher Sprache. Seine Hauptforschungsrichtungen sind die Destillation und Inferenz großer Sprachmodelle, die Generierung offener Domänendialoge usw.
    Yuan Peiwen:
    Jetzt Doktorand am Beijing Institute of Technology, Xiaohongshu Community Search Praktikant, veröffentlichte viele Erstautorenbeiträge in NeurIPS, AAAI usw. und gewann DSTC11 Track 4 Zweiter Platz. Die Hauptforschungsrichtung ist die Inferenz und Bewertung großer Sprachmodelle.
  • Feng Shaoxiong:
    Verantwortlich für den Suchvektorrückruf der Xiaohongshu-Community. Veröffentlichte mehrere Artikel in führenden Konferenzen/Zeitschriften in den Bereichen maschinelles Lernen und Verarbeitung natürlicher Sprache wie AAAI, EMNLP, ACL, NAACL, KBS usw.
  • Daoxuan (Pan Boyuan):
    Leiter der Transaktionssuche in Xiaohongshu. Er hat mehrere Erstautorenbeiträge auf führenden Konferenzen im Bereich maschinelles Lernen und Verarbeitung natürlicher Sprache wie NeurIPS, ICML und ACL veröffentlicht, den zweiten Platz in der SQuAD-Rangliste der Stanford Machine Reading Competition und den ersten Platz in der Stanford Natural gewonnen Rankings der Sprachinferenz.

    Zeng Shushu (Zeng Shushu):
    Leiter für semantisches Suchverständnis und Rückruf in der Xiaohongshu-Community. Er schloss sein Studium an der Fakultät für Elektronik der Tsinghua-Universität mit einem Master ab und beschäftigte sich mit der Algorithmenarbeit in der Verarbeitung natürlicher Sprache, Empfehlung, Suche und anderen verwandten Bereichen im Internetbereich.

Das obige ist der detaillierte Inhalt vonDas Suchteam von Xiaohongshu enthüllt: Die Bedeutung der Überprüfung negativer Proben bei der groß angelegten Modelldestillation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen