ホームページ >テクノロジー周辺機器 >AI >Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

PHPz転載: 2024-02-15 19:00:191444ブラウズ

効果はより安定しており、実装はより簡単です。

大規模言語モデル (LLM) の成功は、「ヒューマンフィードバックに基づく強化学習 (RLHF)」と切り離すことができません。 RLHF は大きく 2 段階に分かれており、まず、望ましい行動と望ましくない行動のペアが与えられた場合、対象を分類することで前者に高いスコアを割り当てるように報酬モデルをトレーニングします。この報酬関数は、ある種の強化学習アルゴリズムを通じて最適化されます。ただし、報酬モデルの主要な要素には望ましくない影響が生じる可能性があります。

カーネギーメロン大学 (CMU) と Google Research の研究者は共同で、シンプルで理論的に厳密で実験的に効果的な新しい RLHF 手法であるセルフプレイプリファレンス最適化 (SPO) を提案しました。このアプローチでは報酬モデルが不要になり、敵対的なトレーニングは必要ありません。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

#論文: 人間のフィードバックからの強化学習へのミニマキシマリストアプローチ

論文のアドレス: https://arxiv.org/abs/2401.04056

メソッドの紹介

SPO メソッドには主に 2 つの側面があります。まず、この研究では RLHF をゼロサムゲームとして構築することで報酬モデルを完全に排除し、実際によく現れるノイズの多い非マルコフ選好をより処理できるようにしています。第二に、この研究は、ゲームの対称性を利用することにより、単一のエージェントをセルフゲーム方式で簡単にトレーニングできることを実証し、それによって不安定な敵対的トレーニングの必要性を排除します。

実際には、これはエージェントから複数の軌跡をサンプリングし、評価者または選好モデルに軌跡の各ペアを比較するよう依頼し、報酬を勝率に設定することと同じです。軌道の。

#SPO は、報酬モデリング、複合エラー、敵対的トレーニングを回避します。この研究は、社会的選択理論からミニマックス勝者の概念を確立することによって、RLHF を 2 人用のゼロサムゲームとして構築し、ゲームの利得行列の対称性を利用して、単一のエージェントがそれ自体に対して単純に訓練できることを実証しています。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

この研究では、SPO の収束特性も分析され、潜在的な報酬関数が存在する場合、SPO を最適なポリシーへの収束速度は標準的な方法と同等です。

#実験

この研究では、現実的な選好関数を使用して一連の連続制御タスクを実行しました。上記により、SPO は報酬モデルに基づく方法よりも優れたパフォーマンスを発揮することが証明されています。 SPO は、以下の図 2 に示すように、さまざまな設定で報酬モデルベースの方法よりも効率的にサンプルを学習できます。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除この研究では、SPO と複数のディメンション A からの反復報酬モデリング (RM) 手法を組み合わせています。比較は 4 つの質問に答えるために行われます:

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除最大報酬選好、ノイズ選好、および非マルコフ選好に関して、この研究の実験結果を図 6、7 に示します。、および 8 はそれぞれ以下に表示されます。

Google が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除

興味のある読者は論文の原文を読んで、研究内容についてさらに詳しく知ることができます。

以上がGoogle が新しい RLHF 手法を提案: 報酬モデルを排除し、敵対的トレーニングの必要性を排除の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Error 算法 https

声明：

この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：3年間で16本の記事、元Google研究員Yi Tay氏がGemini Pro、GPT-3.5に匹敵する新モデル21Bを正式発表次の記事：3年間で16本の記事、元Google研究員Yi Tay氏がGemini Pro、GPT-3.5に匹敵する新モデル21Bを正式発表

続きを見る