


Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago
Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, empfehle ich Ihnen dringend, es zuerst zu überprüfen.
zuvor haben wir die ersten beiden Hauptstadien des Trainings mit LLM behandelt:
- Vorverzerend-Lernen aus massiven Datensätzen, um ein Basismodell zu bilden.
- beaufsichtigte Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.
Jetzt tauchen wir in die nächste Hauptphase ein: Verstärkungslernen (RL) . Während die Vorausbildung und SFT gut etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline.
Ich habe Referenz von Andrej Karpathys weit verbreitetes 3,5-stündiger YouTube von 3,5 Stunden genommen. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold - Sie haben die Idee.
lass uns gehen?
Was ist der Zweck des Verstärkungslernens (RL)?
Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist - wie die grundlegende Arithmetik - ist möglicherweise nicht für ein LLM, der nur Text als Sequenzen von Token ansieht. Umgekehrt kann ein LLM Experten-Level-Antworten zu komplexen Themen generieren, nur weil es im Training genügend Beispiele gesehen hat.
Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die ein LLM konsequent zur richtigen Antwort führen.
rl brücken diese Lücke, indem er das Modell zu aus seiner eigenen Erfahrung lerne .
Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Feedback - Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.
Intuition hinter Rl
llms sind stochastisch - was bedeutet, dass ihre Antworten nicht festgelegt sind. Auch bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.
Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten parallel erzeugen. Betrachten Sie es als das Modell, das verschiedene Wege erforscht - einige gute, einige schlechte. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.
Um dies zu tun, trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, ermöglicht Verstärkungslernen das Modell von sich selbst.
Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.
Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Details sind schwierig, und sie richtig zu machen ist nicht trivial.
rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)
Ein großartiges Beispiel für RLs Macht ist das Alphago von DeepMind, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.
In dem Naturpapier 2016 (Diagramm unten), als ein Modell nur durch SFT trainiert wurde (gab das Modell tonne gute Beispiele), das Modell in der Lage war, die Leistung auf menschlicher Ebene zu erreichen, , aber niemals übertreffen .
Die gepunktete Linie repräsentiert Lee Sedols Leistung - der beste Go -Spieler der Welt.
Dies liegt daran RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen
(blaue Linie) zu übertreffen.rl repräsentiert eine aufregende Grenze in KI - wo Modelle Strategien über die menschliche Vorstellungskraft hinaus untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Problem der Probleme ausbilden, um die Denkstrategien zu verfeinern.

Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

- Agent
- - Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Situation ( Zustand ), wählt eine Aktion aus und aktualisiert ihr Verhalten anhand des Ergebniss ( Belohnung ). Umgebung
- - Das externe System, in dem der Agent arbeitet. Zustand
- - Ein Schnappschuss der Umgebung in einem bestimmten Schritt t . Bei jedem Zeitstempel führt der Agent eine
in der Umgebung durch, die den Zustand der Umgebung in eine neue verändert. Der Agent erhält außerdem Feedback, die angeben, wie gut oder schlecht die Aktion war. Dieses Feedback wird als
Belohnungbezeichnet und in numerischer Form dargestellt. Eine positive Belohnung fördert dieses Verhalten, und eine negative Belohnung entmutigt es. Durch die Verwendung von Feedback aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie, um die Gesamtbelohnung zu maximieren im Laufe der Zeit.
Richtlinie Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.
In mathematischen Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgänge für einen bestimmten Zustand bestimmt -
(πθ (a | s)) . Eine Schätzung, wie gut es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Feedback oder einem Belohnungsmodell stammen. Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert: wie es funktioniert:
Deepseek-R1-Zero und Deepseek-R1.
Warum Grpo über PPO?
grpo eliminiert das Kritikermodell unter Verwendung relative Bewertung
Stellen Sie sich vor, die Schüler lösen ein Problem. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.
Wie passt GRPO in den gesamten Trainingsprozess? Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1-Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Rechenrechnung) und mehr Argumentationszeit (Testzeit-Rechenumfang). Deepseek-r1-Null zeigte reflektierende Tendenzen, die seine Argumentation autonom verfeinern. Ein Schlüsseldiagramm (unten) im Artikel zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte. Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft des RL-Trainings. Das Modell hatte auch einen „AHA -Moment“ (unten) - ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann. HINWEIS: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine vollständigen Denkketten, da sie über ein Destillationsrisiko besorgt sind-bei dem jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken. Für Aufgaben mit überprüfbaren Ausgängen (z. B. mathematische Probleme, sachliche Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „richtige“ Antwort gibt? Hier kommt das menschliche Feedback ins Spiel - aber naive RL -Ansätze sind unvergleichlich. Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an. Das sind eine Milliarde menschliche Bewertungen benötigt! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern. Ranking -Antworten ist auch einfacher und intuitiver als absolute Bewertung. Beachten Sie, dass RLHF nicht dasselbe ist wie das herkömmliche RL.
Für empirische, überprüfbare Domänen (z. B. Mathematik, Codierung) kann RL auf unbestimmte Zeit ausgeführt und neuartige Strategien entdecken. RLHF hingegen ähnelt eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten.
Schlussfolgerung Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 genossen? Wenn Sie Teil 1 noch nicht gelesen haben, sehen Sie es sich hier an. Wertfunktion
Schauspieler-kritische Architektur
alles zusammen für llms zusammenstellen
Der Status kann der aktuelle Text (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Feedback) sagt dem Modell, wie gut oder schlecht es generierten Text ist.
Um die Bedeutung von RL hervorzuheben, lassen Sie uns Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Source-Leistungsverhältnisse erzielt. Das Papier führte zwei Modelle vor: Deepseek-r1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).
Lassen Sie uns in einige dieser Schlüsselpunkte eintauchen.
Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinienoptimierung (GRPO), eine Variante der weit verbreiteten populären proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.
Wie Grpo diese Herausforderungen ansprach:
hohe Rechenkosten, da RL -Pipelines erhebliche Ressourcen für die Bewertung und Optimierung der Antworten erfordern.
grpo modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:
Belohnungen zuweisen
Zurück -Ausbreitungsgradient -Abstieg
- Die Rückverbreitung berechnet, wie jeder Parameter zu Verlust - Gradientenabstieg beigetragen hat, diese Parameter, um den Verlust
- über viele Iterationen zu verringern, und verändert die neue Richtlinie die neue Richtlinie zu einer höheren Belohnung .
Aktualisieren Sie die alte Richtlinie gelegentlich, um der neuen Richtlinie zu entsprechen
.
traditionelles LLM-Training folgt vor der Training → SFT → RL. Deepseek-r1-nero übersprungenes SFT
, sodass das Modell die COT-Argumentation direkt untersuchen kann.
Verstärkungslernen mit menschlichem Feedback (RLHF)
Upsides von RLHF
Nachteile von rlhf
Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!
Das obige ist der detaillierte Inhalt vonWie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Cyberangriffe entwickeln sich weiter. Vorbei sind die Tage generischer Phishing -E -Mails. Die Zukunft der Cyberkriminalität ist hyperpersonalisiert und nutzt leicht verfügbare Online-Daten und KI, um hoch gezielte Angriffe zu erzeugen. Stellen Sie sich einen Betrüger vor, der Ihren Job kennt, Ihr F.

In seiner Eröffnungsrede an das College of Cardinals diskutierte der in Chicago geborene Robert Francis Prevost, der neu gewählte Papst Leo XIV, den Einfluss seines Namensvetters, Papst Leo XIII., Dessen Papsttum (1878-1903) mit der Dämmerung des Automobils und der Dämmerung des Automobils und des Automobils zusammenfiel

Ich stimme voll und ganz zu. Mein Erfolg ist untrennbar mit der Anleitung meiner Mentoren verbunden. Ihre Einsichten, insbesondere in Bezug auf das Geschäftsmanagement, bildeten das Fundament meiner Überzeugungen und Praktiken. Diese Erfahrung unterstreicht mein Engagement für Mentor

KI verbesserte Bergbaugeräte Die Bergbaubetriebumgebung ist hart und gefährlich. Künstliche Intelligenzsysteme verbessern die Gesamteffizienz und -sicherheit, indem Menschen aus den gefährlichsten Umgebungen entfernt und die Fähigkeiten des Menschen verbessert werden. Künstliche Intelligenz wird zunehmend verwendet, um autonome LKWs, Übungen und Lader, die in Bergbauvorgängen verwendet werden, zu betreiben. Diese KI-betriebenen Fahrzeuge können in gefährlichen Umgebungen genau arbeiten und so die Sicherheit und Produktivität erhöhen. Einige Unternehmen haben autonome Bergbaufahrzeuge für groß angelegte Bergbaubetriebe entwickelt. Geräte, die in anspruchsvollen Umgebungen betrieben werden, erfordert eine kontinuierliche Wartung. Wartung kann jedoch kritische Geräte offline halten und Ressourcen konsumieren. Genauere Wartung bedeutet eine höhere Fahrt für teure und notwendige Geräte und erhebliche Kosteneinsparungen. AI-gesteuert

Marc Benioff, CEO von Salesforce, prognostiziert eine monumentale Revolution am Arbeitsplatz, die von AI -Agenten angetrieben wird, eine Transformation, die bereits innerhalb von Salesforce und seiner Kundenstamme im Gange ist. Er stellt sich eine Verlagerung von traditionellen Märkten zu einem weitaus größeren Markt vor, auf den sich konzentriert wird

Der Aufstieg der KI in der Personalabteilung: Navigation einer Belegschaft mit Roboterkollegen Die Integration von KI in die Personalabteilung (HR) ist kein futuristisches Konzept mehr. Es wird schnell zur neuen Realität. Diese Verschiebung wirkt sich sowohl auf HR -Fachkräfte als auch Mitarbeiter aus, DEM aus.

Ihr Umsatzbruch liegt direkt vor Ihnen. Brechen Sie die Decke und bringen Sie Ihr Geschäft auf ein ganz neues Niveau. Das ist möglich. Kopieren Sie den Inhalt der quadratischen Halterung in ChatGPT ein, fügen Sie und ändern Sie das gleiche Chat -Fenster, damit der Kontext fortgesetzt wird. Umsatzbarrieren mit ChatGPT abbauen: Geben Sie Ihr Wachstumspotenzial aus 10 -mal die Wachstumsdichtung Ihre Ziele sind langweilig. Die Geschäftsvision, die Sie einmal erregt, fühlt sich jetzt schmerzlich sicher. Sie erreichen Ihr Ziel, aber Sie fühlen sich leer. Erfolg basiert nicht auf Glück. Sie setzen mutige Ziele, die sowohl erschreckend als auch aufregend sind. Sie sehen Geschäft als Spiel und Sie auch. Höhere Wetten verfolgen. Der Traum ist größer. Der Plan ist größer. Mehr ausführen. Sehen Sie sich Ihre Ergebnisse an

Lassen Sie uns den aufregenden Schnittpunkt von Romantik und generativer KI untersuchen. Diese Analyse ist Teil meiner laufenden Forbes -Spalte zu den neuesten Fortschritten von AI, wobei der Schwerpunkt auf den wirkungsvollen KI -Komplexitäten liegt (siehe Link hier). Romantik neu definieren: eine moderne Perspektive Wir haben


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SAP NetWeaver Server-Adapter für Eclipse
Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung
