Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago-KI-php.cn

Heim

Technologie-Peripheriegeräte

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

DDD

Feb 28, 2025 am 10:37 AM

Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, empfehle ich Ihnen dringend, es zuerst zu überprüfen.

zuvor haben wir die ersten beiden Hauptstadien des Trainings mit LLM behandelt:

Vorverzerend-Lernen aus massiven Datensätzen, um ein Basismodell zu bilden.
beaufsichtigte Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.

Jetzt tauchen wir in die nächste Hauptphase ein: Verstärkungslernen (RL) . Während die Vorausbildung und SFT gut etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline.

Ich habe Referenz von Andrej Karpathys weit verbreitetes 3,5-stündiger YouTube von 3,5 Stunden genommen. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold - Sie haben die Idee.

lass uns gehen?

Was ist der Zweck des Verstärkungslernens (RL)?

Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist - wie die grundlegende Arithmetik - ist möglicherweise nicht für ein LLM, der nur Text als Sequenzen von Token ansieht. Umgekehrt kann ein LLM Experten-Level-Antworten zu komplexen Themen generieren, nur weil es im Training genügend Beispiele gesehen hat.

Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die ein LLM konsequent zur richtigen Antwort führen.

rl brücken diese Lücke, indem er das Modell zu aus seiner eigenen Erfahrung lerne .

Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Feedback - Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.

Intuition hinter Rl

llms sind stochastisch - was bedeutet, dass ihre Antworten nicht festgelegt sind. Auch bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.

Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten parallel erzeugen. Betrachten Sie es als das Modell, das verschiedene Wege erforscht - einige gute, einige schlechte. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.

Um dies zu tun, trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, ermöglicht Verstärkungslernen das Modell von sich selbst.

Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.

Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Details sind schwierig, und sie richtig zu machen ist nicht trivial.

rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)

Ein großartiges Beispiel für RLs Macht ist das Alphago von DeepMind, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.

In dem Naturpapier 2016 (Diagramm unten), als ein Modell nur durch SFT trainiert wurde (gab das Modell tonne gute Beispiele), das Modell in der Lage war, die Leistung auf menschlicher Ebene zu erreichen, , aber niemals übertreffen .

Die gepunktete Linie repräsentiert Lee Sedols Leistung - der beste Go -Spieler der Welt.

Dies liegt daran RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen

(blaue Linie) zu übertreffen.

rl repräsentiert eine aufregende Grenze in KI - wo Modelle Strategien über die menschliche Vorstellungskraft hinaus untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Problem der Probleme ausbilden, um die Denkstrategien zu verfeinern.

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

rl Foundations recap

Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

- Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Situation ( Zustand ), wählt eine Aktion aus und aktualisiert ihr Verhalten anhand des Ergebniss ( Belohnung ).
- Das externe System, in dem der Agent arbeitet.
- Ein Schnappschuss der Umgebung in einem bestimmten Schritt t . Bei jedem Zeitstempel führt der Agent eine

Aktion

in der Umgebung durch, die den Zustand der Umgebung in eine neue verändert. Der Agent erhält außerdem Feedback, die angeben, wie gut oder schlecht die Aktion war. Dieses Feedback wird als

Belohnung

bezeichnet und in numerischer Form dargestellt. Eine positive Belohnung fördert dieses Verhalten, und eine negative Belohnung entmutigt es. Durch die Verwendung von Feedback aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie, um die Gesamtbelohnung zu maximieren im Laufe der Zeit.

Richtlinie Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.

In mathematischen Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgänge für einen bestimmten Zustand bestimmt -

(πθ (a | s)) .

Wertfunktion

Eine Schätzung, wie gut es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Feedback oder einem Belohnungsmodell stammen.

Schauspieler-kritische Architektur

Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert:

Akteur - lernt und aktualisiert die -Politik (πθ) und entscheidet, welche Maßnahmen in jedem Zustand ergreifen sollen.

Critic - Evaluiert die -Wergie -Funktion (v (s)), um dem Schauspieler Feedback zu geben, ob seine gewählten Aktionen zu guten Ergebnissen führen.

wie es funktioniert:

Der Actor wählt eine Aktion basierend auf seiner aktuellen Richtlinie aus.
Der
Kritiker bewertet das Ergebnis (Belohnung im nächsten Zustand) und aktualisiert seine Wertschätzung.
Das Feedback des Kritikers hilft dem Akteur, seine Richtlinie so zu verfeinern, dass zukünftige Maßnahmen zu höheren Belohnungen führen.

alles zusammen für llms
zusammenstellen
Der Status kann der aktuelle Text (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Feedback) sagt dem Modell, wie gut oder schlecht es generierten Text ist.

Die Richtlinie ist die Strategie des Modells zur Auswahl des nächsten Tokens, während die Wertschöpfungsfunktion schätzt, wie vorteilhaft der aktuelle Textkontext in Bezug auf letztendlich hochwertige Antworten ist.

Deepseek-R1 (veröffentlicht 22. Januar 2025)

Um die Bedeutung von RL hervorzuheben, lassen Sie uns Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Source-Leistungsverhältnisse erzielt. Das Papier führte zwei Modelle vor:
Deepseek-R1-Zero und Deepseek-R1.

Deepseek-r1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).

Deepseek-r1 baut darauf auf und befasst sich mit den auftretenden Herausforderungen.

Lassen Sie uns in einige dieser Schlüsselpunkte eintauchen.

1. RL Algo: Gruppenrelative Richtlinienoptimierung (GRPO)

Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinienoptimierung (GRPO), eine Variante der weit verbreiteten populären proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.

Warum Grpo über PPO?
PPO kämpft mit Argumentationsaufgaben durch:

Abhängigkeit von einem Kritikermodell.
hohe Rechenkosten, da RL -Pipelines erhebliche Ressourcen für die Bewertung und Optimierung der Antworten erfordern.

Absolute Belohnungsbewertungen
Wenn Sie sich auf eine absolute Belohnung verlassen-was bedeutet, dass es einen einzigen Standard oder eine Metrik gibt, um zu beurteilen, ob eine Antwort „gut“ oder „schlecht“ ist-kann es schwierig sein, die Nuancen offener, unterschiedlicher Aufgaben über verschiedene Argumentationsbereiche hinweg zu erfassen.
.

Wie Grpo diese Herausforderungen ansprach:
grpo eliminiert das Kritikermodell unter Verwendung relative Bewertung
- Antworten werden in einer Gruppe verglichen und nicht nach einem festen Standard beurteilt.
Stellen Sie sich vor, die Schüler lösen ein Problem. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.

Wie passt GRPO in den gesamten Trainingsprozess?

grpo modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:

Daten sammeln (Abfragenantworten)

- Für LLMs sind Abfragen wie Fragen - Die alte Richtlinie (älterer Schnappschuss des Modells) generiert mehrere Kandidatenantworten für jede Abfrage

Belohnungen zuweisen
- Jede Antwort in der Gruppe wird bewertet (die „Belohnung“).
Berechnen Sie den Grpo -Verlust

Traditionell werden Sie einen Verlust berechnen - was die Abweichung zwischen der Modellvorhersage und dem wahren Etikett zeigt. Schlimmer noch?
Zurück -Ausbreitungsgradient -Abstieg
- Die Rückverbreitung berechnet, wie jeder Parameter zu Verlust - Gradientenabstieg beigetragen hat, diese Parameter, um den Verlust
- über viele Iterationen zu verringern, und verändert die neue Richtlinie die neue Richtlinie zu einer höheren Belohnung .

Aktualisieren Sie die alte Richtlinie gelegentlich, um der neuen Richtlinie zu entsprechen
.
Dies aktualisiert die Grundlinie für die nächste Vergleichsrunde.
2. Denkkette (cot)
traditionelles LLM-Training folgt vor der Training → SFT → RL. Deepseek-r1-nero übersprungenes SFT
, sodass das Modell die COT-Argumentation direkt untersuchen kann.
Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1-Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Rechenrechnung) und mehr Argumentationszeit (Testzeit-Rechenumfang).

Deepseek-r1-Null zeigte reflektierende Tendenzen, die seine Argumentation autonom verfeinern.

Ein Schlüsseldiagramm (unten) im Artikel zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte.

Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft des RL-Trainings.

Das Modell hatte auch einen „AHA -Moment“ (unten) - ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann.

HINWEIS: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine vollständigen Denkketten, da sie über ein Destillationsrisiko besorgt sind-bei dem jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken.

Verstärkungslernen mit menschlichem Feedback (RLHF)

Für Aufgaben mit überprüfbaren Ausgängen (z. B. mathematische Probleme, sachliche Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „richtige“ Antwort gibt?

Hier kommt das menschliche Feedback ins Spiel - aber naive RL -Ansätze sind unvergleichlich.

Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an.

Das sind eine Milliarde menschliche Bewertungen benötigt! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern.

Ranking -Antworten ist auch einfacher und intuitiver als absolute Bewertung.

Upsides von RLHF

kann auf jede Domäne angewendet werden, einschließlich kreatives Schreiben, Poesie, Zusammenfassung und anderen offenen Aufgaben.

Ranking -Ausgänge ist für menschliche Lager viel einfacher als die Erzeugung kreativer Ausgänge selbst.

Nachteile von rlhf

Das Belohnungsmodell ist eine Annäherung - es spiegelt möglicherweise die menschlichen Vorlieben nicht perfekt wider.

rl ist gut im Spielen des Belohnungsmodell

Beachten Sie, dass RLHF nicht dasselbe ist wie das herkömmliche RL. Für empirische, überprüfbare Domänen (z. B. Mathematik, Codierung) kann RL auf unbestimmte Zeit ausgeführt und neuartige Strategien entdecken. RLHF hingegen ähnelt eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten. Schlussfolgerung

Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 genossen? Wenn Sie Teil 1 noch nicht gelesen haben, sehen Sie es sich hier an.

Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!

Das obige ist der detaillierte Inhalt vonWie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Persönliches Hacking wird ein ziemlich heftiger Bär seinMay 11, 2025 am 11:09 AM

Cyberangriffe entwickeln sich weiter. Vorbei sind die Tage generischer Phishing -E -Mails. Die Zukunft der Cyberkriminalität ist hyperpersonalisiert und nutzt leicht verfügbare Online-Daten und KI, um hoch gezielte Angriffe zu erzeugen. Stellen Sie sich einen Betrüger vor, der Ihren Job kennt, Ihr F.

Papst Leo XIV zeigt, wie KI seine Namenswahl beeinflusst hatMay 11, 2025 am 11:07 AM

In seiner Eröffnungsrede an das College of Cardinals diskutierte der in Chicago geborene Robert Francis Prevost, der neu gewählte Papst Leo XIV, den Einfluss seines Namensvetters, Papst Leo XIII., Dessen Papsttum (1878-1903) mit der Dämmerung des Automobils und der Dämmerung des Automobils und des Automobils zusammenfiel

3 Wege KI kann Mentoring sinnvoller als je zuvor machenMay 10, 2025 am 11:17 AM

Ich stimme voll und ganz zu. Mein Erfolg ist untrennbar mit der Anleitung meiner Mentoren verbunden. Ihre Einsichten, insbesondere in Bezug auf das Geschäftsmanagement, bildeten das Fundament meiner Überzeugungen und Praktiken. Diese Erfahrung unterstreicht mein Engagement für Mentor

AI entblößt neues Potenzial in der BergbauindustrieMay 10, 2025 am 11:16 AM

KI verbesserte Bergbaugeräte Die Bergbaubetriebumgebung ist hart und gefährlich. Künstliche Intelligenzsysteme verbessern die Gesamteffizienz und -sicherheit, indem Menschen aus den gefährlichsten Umgebungen entfernt und die Fähigkeiten des Menschen verbessert werden. Künstliche Intelligenz wird zunehmend verwendet, um autonome LKWs, Übungen und Lader, die in Bergbauvorgängen verwendet werden, zu betreiben. Diese KI-betriebenen Fahrzeuge können in gefährlichen Umgebungen genau arbeiten und so die Sicherheit und Produktivität erhöhen. Einige Unternehmen haben autonome Bergbaufahrzeuge für groß angelegte Bergbaubetriebe entwickelt. Geräte, die in anspruchsvollen Umgebungen betrieben werden, erfordert eine kontinuierliche Wartung. Wartung kann jedoch kritische Geräte offline halten und Ressourcen konsumieren. Genauere Wartung bedeutet eine höhere Fahrt für teure und notwendige Geräte und erhebliche Kosteneinsparungen. AI-gesteuert

Warum KI -Agenten die größte Revolution am Arbeitsplatz seit 25 Jahren auslösen werdenMay 10, 2025 am 11:15 AM

Marc Benioff, CEO von Salesforce, prognostiziert eine monumentale Revolution am Arbeitsplatz, die von AI -Agenten angetrieben wird, eine Transformation, die bereits innerhalb von Salesforce und seiner Kundenstamme im Gange ist. Er stellt sich eine Verlagerung von traditionellen Märkten zu einem weitaus größeren Markt vor, auf den sich konzentriert wird

AI HR wird unsere Welten rocken, wenn die KI -Adoption steigtMay 10, 2025 am 11:14 AM

Der Aufstieg der KI in der Personalabteilung: Navigation einer Belegschaft mit Roboterkollegen Die Integration von KI in die Personalabteilung (HR) ist kein futuristisches Konzept mehr. Es wird schnell zur neuen Realität. Diese Verschiebung wirkt sich sowohl auf HR -Fachkräfte als auch Mitarbeiter aus, DEM aus.

5 CHATGPT -Aufforderungen, Einnahmenplateau zu durchbrechenMay 10, 2025 am 11:13 AM

Ihr Umsatzbruch liegt direkt vor Ihnen. Brechen Sie die Decke und bringen Sie Ihr Geschäft auf ein ganz neues Niveau. Das ist möglich. Kopieren Sie den Inhalt der quadratischen Halterung in ChatGPT ein, fügen Sie und ändern Sie das gleiche Chat -Fenster, damit der Kontext fortgesetzt wird. Umsatzbarrieren mit ChatGPT abbauen: Geben Sie Ihr Wachstumspotenzial aus 10 -mal die Wachstumsdichtung Ihre Ziele sind langweilig. Die Geschäftsvision, die Sie einmal erregt, fühlt sich jetzt schmerzlich sicher. Sie erreichen Ihr Ziel, aber Sie fühlen sich leer. Erfolg basiert nicht auf Glück. Sie setzen mutige Ziele, die sowohl erschreckend als auch aufregend sind. Sie sehen Geschäft als Spiel und Sie auch. Höhere Wetten verfolgen. Der Traum ist größer. Der Plan ist größer. Mehr ausführen. Sehen Sie sich Ihre Ergebnisse an

Romantikgeschichten, die über generative KI neue herzliche Höhen erreichenMay 10, 2025 am 11:12 AM

Lassen Sie uns den aufregenden Schnittpunkt von Romantik und generativer KI untersuchen. Diese Analyse ist Teil meiner laufenden Forbes -Spalte zu den neuesten Fortschritten von AI, wobei der Schwerpunkt auf den wirkungsvollen KI -Komplexitäten liegt (siehe Link hier). Romantik neu definieren: eine moderne Perspektive Wir haben

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vorByDDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Nordhold: Fusionssystem, erklärt

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Heiße Themen

1664

1423

1321

1269

1249