ホームページ >テクノロジー周辺機器 >AI >LLMの最適化への深いダイビング:ポリシーグラデーションからGRPOへ

LLMの最適化への深いダイビング:ポリシーグラデーションからGRPOへ

William Shakespeare
William Shakespeareオリジナル
2025-03-04 09:17:15492ブラウズ

Renforce Learning(RL)は、ロボット工学、AIゲームプレイ(Alphago、Openai Five)、および制御システムに革命をもたらしました。 その力は、特に順次推論タスクにおいて、意思決定を最適化するために長期的な報酬を最大化することにあります。 当初、大規模な言語モデル(LLMS)は、静的データセットを使用した監視された学習に依存していましたが、適応性がなく、微妙な人間の好みの調整に苦労していました。 人間のフィードバック(RLHF)による強化学習はこれを変更し、ChatGPT、DeepSeek、Gemini、Claudeなどのモデルをユーザーフィードバックに基づいて応答を最適化できるようにします。 ただし、標準のPPOベースのRLHFは非効率的であり、費用のかかる報酬モデリングと反復トレーニングが必要です。 Deepseekのグループ相対ポリシー最適化(GRPO)は、優先ランキングを直接最適化することにより、これに対処し、明示的な報酬モデリングの必要性を排除します。 GRPOの重要性を理解するために、基本的な政策最適化手法を探ります。

キー学習ポイントA Deep Dive into LLM Optimization: From Policy Gradient to GRPO

この記事では、

について説明します

LLMSを最適化するためのRLベースのテクニックの重要性。

政策最適化の基礎:PG、TRPO、PPO、DPO、およびGRPO。
    RLおよびLLMの微調整のこれらの方法を比較します。
  • ポリシー最適化アルゴリズムの実用的なPython実装。
  • トレーニング損失の曲線と確率分布を使用して、微調整衝撃の評価。
  • LLMの安全性、アライメント、および信頼性を改善するために、DPOとGRPOを適用します。
  • この記事は、データサイエンスブログの一部です
  • 目次

ポリシーの最適化の紹介 数学的基礎 ポリシーグラデーション(PG)

ポリシー勾配定理 アルゴリズムの例

を強化します
    信頼地域のポリシー最適化(TRPO)
  • TRPOアルゴリズムと重要な概念
  • TRPOトレーニングループの例
  • 近位ポリシー最適化(PPO)
  • PPOアルゴリズムと重要な概念
  • PPOトレーニングループの例
  • 直接優先最適化(DPO)
  • dpo例
  • grpo:deepseekのアプローチ
  • grpo数学的財団
  • grpo微調整データ
  • grpoコード実装
  • grpoトレーニングループ
  • grpoの結果と分析
  • LLM微調整
  • におけるGRPOの利点
  • 結論
  • よくある質問
  • ポリシーの最適化の紹介
  • DeepseekのGRPOを掘り下げる前に、RLの基本的な政策最適化手法を理解することは、従来の制御とLLMの微調整の両方にとって重要です。 ポリシーの最適化により、AIエージェントの意思決定戦略(ポリシー)が改善され、予想される報酬が最大化されます。 バニラポリシーグラジエント(PG)のような初期の方法は基礎となっていますが、TRPO、PPO、DPO、GRPOなどのより高度な手法は、安定性、効率、および好みの調整に対処しました。

    ポリシーの最適化とは?

    ポリシーの最適化は、最適なポリシーπ_θ(a | s)を学習することを目的としており、長期的な報酬を最大化しながら、状態をアクション

    aにマッピングします。 RL目的関数は次のとおりです

    ここで、r(τ)は軌跡τの完全な報酬であり、ポリシーπ_θ。

    3つの主なアプローチが存在します:A Deep Dive into LLM Optimization: From Policy Gradient to GRPO

    1。勾配ベースの最適化

    これらの方法は、予想される報酬勾配を直接計算し、勾配上昇を使用してポリシーパラメーターを更新します。 強化(バニラポリシーグラデーション)は例です。 それらはシンプルで、継続的/離散的なアクションを使用しますが、高い分散に苦しんでいます。

    2。信託地域の最適化

    これらのメソッド(TRPO、PPO)は、安定した、劇的でないポリシーの更新のための制約(KL Divergence)を導入します。 TRPOは信頼地域を使用しています。 PPOはクリッピングでこれを簡素化します。それらは生のポリシーグラデーションよりも安定していますが、計算上高価(TRPO)またはハイパーパラメーター感受性(PPO)である可能性があります。

    3。優先ベースの最適化

    これらの方法(DPO、GRPO)は、報酬の代わりにランク付けされた人間の好みから直接最適化します。 DPOは、優先対応と拒否された応答から学習します。 GRPOはグループに一般化します。彼らは報酬モデルを排除し、LLMを人間の意図とより適切に調整しますが、高品質の優先データが必要です。

    (残りのセクションは、元の情報と画像の配置を維持するために、再語語と再構築の同様のパターンに従います。元のテキストの長さにより、ここで完全な書き換えバージョンを提供することは実用的ではありません。しかし、上記は残りの記事を書き直すためのアプローチを示しています。)

以上がLLMの最適化への深いダイビング:ポリシーグラデーションからGRPOへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。