ホームページ  >  記事  >  テクノロジー周辺機器  >  Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

PHPz
PHPz転載
2024-02-15 19:00:191294ブラウズ

効果はより安定しており、実装はより簡単です。

大規模言語モデル (LLM) の成功は、「ヒューマン フィードバックに基づく強化学習 (RLHF)」と切り離すことができません。 RLHF は大きく 2 段階に分かれており、まず、望ましい行動と望ましくない行動のペアが与えられた場合、対象を分類することで前者に高いスコアを割り当てるように報酬モデルをトレーニングします。この報酬関数は、ある種の強化学習アルゴリズムを通じて最適化されます。ただし、報酬モデルの主要な要素には望ましくない影響が生じる可能性があります。

カーネギー メロン大学 (CMU) と Google Research の研究者は共同で、シンプルで理論的に厳密で実験的に効果的な新しい RLHF 手法であるセルフプレイ プリファレンス最適化 (SPO) を提案しました。このアプローチでは報酬モデルが不要になり、敵対的なトレーニングは必要ありません。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

#論文: 人間のフィードバックからの強化学習へのミニマキシマリスト アプローチ
論文のアドレス: https://arxiv.org/abs/2401.04056

メソッドの紹介

SPO メソッドには主に 2 つの側面があります。まず、この研究では RLHF をゼロサム ゲームとして構築することで報酬モデルを完全に排除し、実際によく現れるノイズの多い非マルコフ選好をより処理できるようにしています。第二に、この研究は、ゲームの対称性を利用することにより、単一のエージェントをセルフゲーム方式で簡単にトレーニングできることを実証し、それによって不安定な敵対的トレーニングの必要性を排除します。

実際には、これはエージェントから複数の軌跡をサンプリングし、評価者または選好モデルに軌跡の各ペアを比較するよう依頼し、報酬を勝率に設定することと同じです。軌道の。
Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除
#SPO は、報酬モデリング、複合エラー、敵対的トレーニングを回避します。この研究は、社会的選択理論からミニマックス勝者の概念を確立することによって、RLHF を 2 人用のゼロサム ゲームとして構築し、ゲームの利得行列の対称性を利用して、単一のエージェントがそれ自体に対して単純に訓練できることを実証しています。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

この研究では、SPO の収束特性も分析され、潜在的な報酬関数が存在する場合、SPO を最適なポリシーへの収束速度は標準的な方法と同等です。

#実験

この研究では、現実的な選好関数を使用して一連の連続制御タスクを実行しました。上記により、SPO は報酬モデルに基づく方法よりも優れたパフォーマンスを発揮することが証明されています。 SPO は、以下の図 2 に示すように、さまざまな設定で報酬モデルベースの方法よりも効率的にサンプルを学習できます。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除この研究では、SPO と複数のディメンション A からの反復報酬モデリング (RM) 手法を組み合わせています。比較は 4 つの質問に答えるために行われます:


    自動詞の好みに直面した場合、SPO は MW を計算できますか?
  1. SPO は、独自の Copeland Winners/最適戦略の問題で RM サンプル効率と同等またはそれを超えることができますか?
  2. SPO はランダムな設定に対してどの程度堅牢ですか?
  3. SPO は非マルコフ選好を処理できますか?

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除最大報酬選好、ノイズ選好、および非マルコフ選好に関して、この研究の実験結果を図 6、7 に示します。 、および 8 はそれぞれ以下に表示されます。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

興味のある読者は論文の原文を読んで、研究内容についてさらに詳しく知ることができます。

以上がGoogle が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。