ホームページ >テクノロジー周辺機器 >AI >LLMSを「思考」にトレーニングする方法(O1&Deepseek-R1)
2024年9月に発表されたOpenaiのO1モデルは、大規模な強化学習を通じて「高度な推論」機能を紹介しました。 AIリサーチラボであるDeepseekは、この動作をうまく再現し、方法論を公然と公開しました。この記事では、このブレークスルーのコア概念と根底にあるメカニズムを探ります。
OpenaiのO1モデルは、「思考」トークンを導入して、大規模な言語モデル(LLM)トレーニングに革命をもたらしました。これらの特別なトークンはスクラッチパッドとして機能し、モデルが問題とユーザークエリを体系的に処理できるようにします。 重要な発見は、テスト時間計算の増加によるパフォーマンスの改善でした。より生成されたトークンは、より良い応答に相当します。 次のグラフ(Openaiのブログから)は、これを示しています:
トークンを考える
O1の「思考」トークンは、モデルの思考の連鎖(COT)の推論を区別します。 それらの重要性は2つあります。彼らは明らかにUI開発の推論プロセスを描き、モデルの思考プロセスの人間が読みやすい記録を提供します。 Openaiはトレーニングの詳細を秘密にしていましたが、Deepseekの研究はこれに光を当てています。
deepseekの研究Deepseekの2025年1月の出版物、「Deepseek-R1:補強学習を介してLLMSの推論能力をインセンティブする発見された
cotおよびテスト時間コンピューティングRLのみを介してスケーリングします。deepseek-r1-zero(rlのみ) 強化学習(RL)により、モデルは試行錯誤を通じて学習でき、モデルパラメーターとの明示的な機能関係なしに報酬信号を受け取ります。 R1-Zeroのトレーニングの3つの重要な側面が強調表示されています:
プロンプトテンプレート:
シンプルなテンプレートはおよび
タグを使用してモデルの応答を構成します。報酬シグナル:ルールベースのシステムは、正確性とフォーマットを評価し、潜在的な「報酬ハッキング」問題を回避します。
grpo(グループ相対ポリシーの最適化):このRLアプローチは、モデルパラメーターを更新するための応答を集約し、安定したトレーニングのためにクリッピングとKL-divergenceの正則化を組み込みます。 損失関数は以下に示されています:
r1-zeroの結果(緊急能力)
驚くべきことに、R1-Zeroは、テスト時間計算を通じて応答を改善することを暗黙的に学び、しばしば検証手順を含む人間のような内部モノローグを示しました。 例は、元の記事に記載されています。
deepseek-r1(sft rl)
deepseek-r1は、SFTとRLを組み合わせた4段階のトレーニングプロセスを通じてR1-Zeroの読みやすさの問題に対処します:
推論データを備えたSFT:初期SFTは、数千の長いベッドコットの例を使用して推論フレームワークを確立します。
RLトレーニングR1-Zeroに似ていますが、言語の一貫性報酬が追加されています。 混合データを備えた
rl rlhf:
r1-zeroおよびr1
結論
O1 LLM改善の新しい次元としてテスト時間計算を導入しました。 Deepseekのレプリケーションと公開出版物は、補強学習が既存の人間の知識の制限を上回るモデルを独立して生成できることを示しています。これは、将来の科学技術の進歩のためのエキサイティングな可能性を開きます。
[注:外部リソースへのリンクは、言い換えされたコンテンツに関連しておらず、プロモーションと見なされる可能性があるため省略されました。]
以上がLLMSを「思考」にトレーニングする方法(O1&Deepseek-R1)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。