Heim >Technologie-Peripheriegeräte >KI >Wie man LLMs trainiert, um zu „denken' (O1 & Deepseek-R1)

Wie man LLMs trainiert, um zu „denken' (O1 & Deepseek-R1)

Patricia Arquette
Patricia ArquetteOriginal
2025-03-04 10:37:11289Durchsuche

Openais O1-Modell, das im September 2024 vorgestellt wurde, präsentierte "Advanced Argumenting" -Funktionen durch groß angelegte Verstärkungslernen. Deepseek, ein AI -Forschungslabor, hat dieses Verhalten erfolgreich repliziert und ihre Methodik offen veröffentlicht. Dieser Artikel untersucht die Kernkonzepte und zugrunde liegenden Mechanismen dieses Durchbruchs.

How to Train LLMs to “Think” (o1 & DeepSeek-R1) OpenAs O1 -Modell revolutionierte das LLM -Training (Langwary Model), indem "Denken" -Token eingeführt wurde. Diese speziellen Token fungieren als Scratchpad, sodass das Modell Probleme und Benutzeranfragen systematisch verarbeiten kann. Ein wesentlicher Befund war die Leistungsverbesserung mit erhöhtem Testzeit-Computer-generierte Token entspricht besseren Antworten. Das folgende Diagramm (aus OpenAIs Blog) zeigt Folgendes:

How to Train LLMs to “Think” (o1 & DeepSeek-R1) Die linke Handlung zeigt die etablierten Gesetze mit neuronaler Skalierung, in denen eine längere Ausbildung (Zug-Zeit-Compute) die Leistung verbessert. Die rechte Handlung zeigt ein neuartiges Skalierungsgesetz: Erhöhte Token-Erzeugung während der Inferenz (Test-Time Compute) verbessert die Leistung.

Denken Token

O1s "Denken" -Tokenen zerstören die Gedankenkette des Modells (COT). Ihre Bedeutung ist zweifach: Sie beschreiben den Argumentationsprozess für die UI-Entwicklung eindeutig und liefern eine menschlich-lesbare Aufzeichnung des Denkprozesses des Modells. Während OpenAI die Trainingsdetails vertraulich hielt, beleuchtet Deepseeks Forschungen dies.

Deepseeks Forschung

Deepseeks Januar 2025 Veröffentlichung " Deepseek-R1: Anreizfunktionen in LLMs über Verstärkungslernen " [2] enthüllte die Geheimnisse des O1-Modells. Sie stellten Deepseek-R1-Zero (ausschließlich auf Verstärkungslernen) und Deepseek-R1 (eine Mischung aus beaufsichtigter Feinabstimmung (SFT) und RL) ein. R1-Null ist entscheidend, da es Trainingsdaten für R1 generierte und aufstrebte, nicht explizit programmierte aufstrebende Argumentationsfähigkeiten. R1-Nzero entdeckt COT- und Test-Time-Berechnung durch RL allein.

Deepseek-r1-Zero (nur RL)

Verstärkungslernen (RL) ermöglicht es Modellen, durch Versuch und Irrtum zu lernen und Belohnungssignale ohne explizite funktionale Beziehungen zu Modellparametern zu erhalten. Drei wichtige Aspekte des Trainings von R1-Null werden hervorgehoben:

  1. Eingabeaufforderung Vorlage: Eine einfache Vorlage verwendet <think></think> und <answer></answer> Tags, um die Antwort des Modells zu strukturieren:
<code>A conversation between User and Assistant. The user asks a question, and the 
Assistant solves it.The assistant first thinks about the reasoning process in 
the mind and then provides the user with the answer. The reasoning process and 
answer are enclosed within <think></think> and <answer></answer> tags, 
respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>. User: {prompt}. Assistant:</code>

Die minimale Aufforderung vermeidet Verzerrungsreaktionen und ermöglicht eine natürliche Entwicklung während des Rl.

  1. Belohnungssignal: Ein regelbasiertes System bewertet Genauigkeit und Formatierung, wobei potenzielle "Belohnung" Probleme vermeiden, die häufig mit neuronalen Belohnungsmodellen verbunden sind.

  2. grpo (Gruppenrelatikoptimierung): Dieser RL-Ansatz aggregiert Antworten auf Aktualisierungsmodellparameter, die Einbindung von Clipping und KL-Divergence-Regularisierung für stabiles Training. Die Verlustfunktion ist unten dargestellt:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

r1-null-Ergebnisse (aufkommende Fähigkeiten)

Bemerkenswerterweise lernte R1-Null implizit, die Reaktionen durch Testzeit-Computer zu verbessern, und zeigte menschenähnliche interne Monologe, häufig einschließlich Überprüfungsschritten. Ein Beispiel wird im ursprünglichen Artikel angegeben.

Deepseek-r1 (SFT RL)

Deepseek-r1 befasst

  1. sft mit Argumentationsdaten: Initial SFT verwendet Tausende von Long COT -Beispielen, um ein Argumentationsgerüst festzulegen.

  2. R1-Null-Stil RL (Sprachkonsistenzbelohnung): RL-Training ähnlich wie R1-Zero, aber mit zusätzlicher Sprachkonsistenzbelohnung.

  3. sft mit gemischten Daten: sft mit sowohl argumentation als auch nicht renovierenden Daten, um die Funktionen des Modells zu erweitern.

  4. rl RLHF: Das endgültige RL -Training beinhaltet das Argumentationstraining und RLHF für verbesserte Hilfsmaßnahmen und Harmlosigkeit.

Zugriff auf R1-Zero und R1

Deepseek stellte die Modellgewichte öffentlich zur Verfügung und ermöglicht den Zugang über verschiedene Inferenzanbieter und lokale Bereitstellungen (Deepseek, zusammen, hyperbolisch, Ollama, umarmtes Gesicht).

Schlussfolgerungen

O1 führte den Testzeit-Computer als neue Dimension für die Verbesserung der LLM ein. Die Replikation von Deepseek und die offene Veröffentlichung zeigen, dass Verstärkungslernen unabhängig von Modellen erzeugen kann, die bestehende menschliche Wissensbeschränkungen übertreffen. Dies eröffnet spannende Möglichkeiten für zukünftige wissenschaftliche und technologische Fortschritte.

[Hinweis: Links zu externen Ressourcen wurden weggelassen, da sie für den paraphrasierten Inhalt nicht relevant sind und als Werbung angesehen werden können.]

Das obige ist der detaillierte Inhalt vonWie man LLMs trainiert, um zu „denken' (O1 & Deepseek-R1). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn