ホームページ >テクノロジー周辺機器 >AI >LLMの最適化への深いダイビング:ポリシーグラデーションからGRPOへ
Renforce Learning(RL)は、ロボット工学、AIゲームプレイ(Alphago、Openai Five)、および制御システムに革命をもたらしました。 その力は、特に順次推論タスクにおいて、意思決定を最適化するために長期的な報酬を最大化することにあります。 当初、大規模な言語モデル(LLMS)は、静的データセットを使用した監視された学習に依存していましたが、適応性がなく、微妙な人間の好みの調整に苦労していました。 人間のフィードバック(RLHF)による強化学習はこれを変更し、ChatGPT、DeepSeek、Gemini、Claudeなどのモデルをユーザーフィードバックに基づいて応答を最適化できるようにします。 ただし、標準のPPOベースのRLHFは非効率的であり、費用のかかる報酬モデリングと反復トレーニングが必要です。 Deepseekのグループ相対ポリシー最適化(GRPO)は、優先ランキングを直接最適化することにより、これに対処し、明示的な報酬モデリングの必要性を排除します。 GRPOの重要性を理解するために、基本的な政策最適化手法を探ります。
キー学習ポイント
政策最適化の基礎:PG、TRPO、PPO、DPO、およびGRPO。
ポリシーの最適化の紹介 数学的基礎 ポリシーグラデーション(PG)
ポリシー勾配定理 アルゴリズムの例
を強化しますDeepseekのGRPOを掘り下げる前に、RLの基本的な政策最適化手法を理解することは、従来の制御とLLMの微調整の両方にとって重要です。 ポリシーの最適化により、AIエージェントの意思決定戦略(ポリシー)が改善され、予想される報酬が最大化されます。 バニラポリシーグラジエント(PG)のような初期の方法は基礎となっていますが、TRPO、PPO、DPO、GRPOなどのより高度な手法は、安定性、効率、および好みの調整に対処しました。
ポリシーの最適化とは?aにマッピングします。 RL目的関数は次のとおりです
ここで、r(τ)は軌跡τの完全な報酬であり、ポリシーπ_θ。 3つの主なアプローチが存在します:
これらの方法は、予想される報酬勾配を直接計算し、勾配上昇を使用してポリシーパラメーターを更新します。 強化(バニラポリシーグラデーション)は例です。 それらはシンプルで、継続的/離散的なアクションを使用しますが、高い分散に苦しんでいます。
2。信託地域の最適化
これらの方法(DPO、GRPO)は、報酬の代わりにランク付けされた人間の好みから直接最適化します。 DPOは、優先対応と拒否された応答から学習します。 GRPOはグループに一般化します。彼らは報酬モデルを排除し、LLMを人間の意図とより適切に調整しますが、高品質の優先データが必要です。 (残りのセクションは、元の情報と画像の配置を維持するために、再語語と再構築の同様のパターンに従います。元のテキストの長さにより、ここで完全な書き換えバージョンを提供することは実用的ではありません。しかし、上記は残りの記事を書き直すためのアプローチを示しています。)
以上がLLMの最適化への深いダイビング:ポリシーグラデーションからGRPOへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。