ホームページ >テクノロジー周辺機器 >AI >LLMSの仕組み:補強学習、RLHF、Deepseek R1、Openai O1、Alphago
私のLLMディープダイブのパート2へようこそ。パート1を読んでいない場合は、最初にチェックアウトすることを強くお勧めします。
以前は、LLMをトレーニングする最初の2つの主要な段階を取り上げました。事前トレーニング - 基本モデルを形成するために大規模なデータセットから学習。
Andrej Karpathyの広く人気のある3.5時間のYouTubeから参照しました。 AndrejはOpenaiの創設メンバーであり、彼の洞察は金です。 行こう?
補強学習(RL)の目的は何ですか?人間とLLMSは情報を異なって処理します。基本的な算術のように、私たちにとって直感的なことは、テキストをトークンのシーケンスと見なすLLMのためではないかもしれません。逆に、LLMは、トレーニング中に十分な例を見たという理由だけで、複雑なトピックに関する専門家レベルの応答を生成できます。
この認知の違いにより、人間のアノテーターが、LLMを正しい答えに一貫して導く「完璧な」ラベルセットを提供することが困難になります。
明示的なラベルのみに依存する代わりに、モデルはさまざまなトークンシーケンスを調査し、出力が最も便利なフィードバック(報酬信号)を受信します。時間が経つにつれて、それは人間の意図とよりよく調整することを学びます。
rlの背後にある直感 llmsは確率的です。つまり、応答は固定されていません。同じプロンプトがあっても、出力は確率分布からサンプリングされるために異なります。 並行して数千または数百万の可能な応答を生成することにより、このランダム性を活用できます。モデルが異なるパスを探索しているモデルと考えてください。 私たちの目標は、より良い道をより頻繁に進むように奨励することです。 これを行うには、より良い結果につながるトークンのシーケンスでモデルをトレーニングします。人間の専門家がラベル付きのデータを提供する監視された微調整とは異なり、補強学習により、モデルは それ自体から学ぶことができます。
モデルはどの応答が最適かを発見し、各トレーニングステップの後、そのパラメーターを更新します。時間が経つにつれて、これにより、将来同様のプロンプトが与えられた場合、モデルは高品質の回答を生成する可能性が高くなります。しかし、どの応答が最適かをどのように判断しますか?そして、どのくらいのRLをすべきですか?詳細は注意が必要であり、それらを正しくすることは些細なことではありません。
RLのパワーの素晴らしい例は、プロのGOプレーヤーを倒し、後に人間レベルのプレイを上回る最初のAIであるDeepMindのAlphagoです。 2016年のネイチャーペーパー(下のグラフ)では、モデルが純粋にSFTによってトレーニングされたとき(モデルの良い例を模倣するための良い例を与えます)、モデルは人間レベルのパフォーマンスに到達することができましたが、
。点線はリー・セドルのパフォーマンスを表しています - 世界で最高のゴープレーヤー。
これは、SFTがイノベーションではなく複製に関するものであるためです。モデルが人間の知識を超えて新しい戦略を発見することはできません。しかし、RLは、Alphagoがそれ自体に対抗し、その戦略を改良し、最終的に
を超えることを可能にしました(青い線)。 rlは、AIのエキサイティングなフロンティアを表しています。モデルは、多様で挑戦的な問題のプールで訓練するときに人間の想像力を超えた戦略を探求することができます。 RLファンデーション要約
典型的なRLセットアップの主要なコンポーネントをすばやく再び要約しましょう:
エージェント
-
数学的用語では、特定の状態の異なる出力の確率を決定する関数です - (πθ(a | s))
値関数
長期的な予想される報酬を考慮して、特定の状態にいることがどれほど良いかの推定。 LLMの場合、報酬は人間のフィードバックまたは報酬モデルから得られる可能性があります。
俳優 - 批評家アーキテクチャ
俳優
は、現在のポリシーに基づいてアクションを選択します。deepseek-r1がそれに基づいて構築され、遭遇した課題に対処しました。
1。 RLアルゴ:グループ相対ポリシーの最適化(GRPO) RLアルゴリズムを変更する重要なゲームの1つは、広く人気の近位ポリシー最適化(PPO)のバリアントであるグループ相対ポリシー最適化(GRPO)です。 GRPOは2024年2月にDeepseekmath Paperで紹介されました。
grpoは、相対評価を使用して批評家モデルを排除します - 回答は、固定標準で判断されるのではなく、グループ内で比較されます。 生徒が問題を解決していると想像してください。教師が個別に格付けする代わりに、彼らは答えを比較し、お互いから学びます。時間が経つにつれて、パフォーマンスはより高い品質に向かって収束します
grpoはトレーニングプロセス全体にどのように適合しますか?GRPOは、他のトレーニングステップを変更せずに損失を計算する方法を変更します:
データの収集(クエリの応答)
人間が厳しい質問をしているように、COTを使用すると、モデルは問題を中間ステップに分割し、複雑な推論能力を高めます。 OpenaiのO1モデルは、2024年9月のレポートで述べたように、これを活用しています:O1のパフォーマンスは、より多くのRL(トレインタイム計算)とより多くの推論時間(テスト時間計算)で改善されます。 deepseek-r1-zeroは反射的傾向を示し、その推論を自律的に改善しました
論文のキーグラフ(下)は、トレーニング中の思考の増加を示し、より長い(より多くのトークン)、より詳細かつより良い応答につながりました。明示的なプログラミングがなければ、過去の推論ステップを再検討し始め、精度を向上させました。これは、RLトレーニングの新たな財産としての考え方の推論を強調しています。 モデルには「ahaの瞬間」(以下)もありました。これは、RLが予期しない洗練された結果につながる方法の魅力的な例です。 注:deepseek-r1とは異なり、Openaiは蒸留リスクを懸念しているため、O1で完全に正確な推論チェーンを示していません。代わりに、O1はこれらの思考チェーンの要約だけです。
人間のフィードバック(RLHF)を使用した補強学習これは人間のフィードバックが出る場所ですが、ナイーブなRLアプローチは不ライアになりません。
結論 そしてそれはラップです!パート2を楽しんだことを願っていますか?パート1をまだ読んでいない場合は、こちらをチェックしてください。 次にカバーすべきことについて質問やアイデアがありますか?コメントにそれらを落としてください - 私はあなたの考えを聞きたいです。次の記事でお会いしましょう!
以上がLLMSの仕組み:補強学習、RLHF、Deepseek R1、Openai O1、Alphagoの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。