OpenAI的O1型號於2024年9月發布,通過大規模的增強學習展示了“高級推理”功能。 AI研究實驗室DeepSeek已成功複製了這種行為,並公開發表了他們的方法。本文探討了這一突破的核心概念和基本機制。
>>OpenAI的O1模型通過引入“思考”代幣徹底改變了大型語言模型(LLM)培訓。這些特殊的令牌充當了刮擦板,允許模型系統地處理問題和用戶查詢。 一個關鍵發現是通過增加測試時間計算的性能提高 - 產生的代幣等同於更好的響應。 以下圖(來自Openai的博客)說明了以下內容:
左圖顯示了既定的神經縮放法則,其中較長的訓練(火車時間計算)可改善性能。正確的圖揭示了一種新穎的縮放定律:推理期間的令牌產生增加(測試時間計算)可以增強性能。
思考令牌 O1的“思考”代幣劃分了模型的思想鏈(COT)推理。 它們的重要性是雙重的:他們清楚地描繪了UI開發的推理過程,並提供了模型思維過程的可讀記錄。雖然Openai將培訓細節保密,但DeepSeek的研究闡明了這一點。
> DeepSeek的研究
DeepSeek的2025年1月的出版物:“ DeepSeek-R1:通過增強學習激勵LLMS中的推理能力
” [2],揭示了O1模型的秘密。他們引入了DeepSeek-R1-Zero(僅在增強學習方面接受培訓)和DeepSeek-R1(由監督微調(SFT)和RL的混合物)。 R1-Zero至關重要,因為它為R1生成了培訓數據,並證明未明確編程的緊急推理能力。 R1-Zero發現COT和測試時間計算單獨通過RL縮放。
> deepSeek-r1-Zero(僅Rl)
一個簡單的模板使用 > 獎勵信號:基於規則的系統評估準確性和格式,避免了可能與神經獎勵模型相關的潛在“獎勵黑客入侵”問題。
grpo(小組相對策略優化):
>
>非常明顯的是,R1-Zero隱式學會通過測試時間計算來改善響應,並表現出類似人類的內部獨白,通常包括驗證步驟。 原始文章中提供了一個示例。
> DeepSeek-R1通過組合SFT和RL的四步訓練過程解決R1-Zero的可讀性問題
帶有推理數據的SFT
sft: sft具有推理和非爭議數據,以擴大模型的功能。 rl rlHf:最終的RL培訓包括推理培訓和RLHF,以提高幫助和無害性。 >訪問R1-Zero和R1 結論 O1引入了測試時間計算,作為LLM改進的新維度。 DeepSeek的複制和公開出版物表明,強化學習可以獨立地產生超過現有人類知識限制的模型。這為未來的科學和技術進步打開了令人興奮的可能性。
[注意:標籤來構建模型的響應:
<think></think>
最小的提示避免了偏見的反應,並允許在RL期間自然演變。 <answer></answer>
SFT:
以上是如何訓練LLM'思考”(O1&DeepSeek-R1)的詳細內容。更多資訊請關注PHP中文網其他相關文章!