ホームページ > 記事 > テクノロジー周辺機器 > 10 行のコードは RLHF に相当し、ソーシャル ゲーム データを使用してソーシャル アラインメント モデルをトレーニングします。
言語モデルの動作を人間の社会的価値観と一致させることは、現在の言語モデル開発の重要な部分です。対応するトレーニングは、値の調整とも呼ばれます。
現在の主流のソリューションは、ChatGPT で使用される RLHF (Reinforcenment Learning from Human Feedback) であり、人間のフィードバックに基づいた強化学習です。このソリューションでは、まず人間の判断の代理として報酬モデル (価値モデル) をトレーニングします。エージェント モデルは、強化学習フェーズ中に生成言語モデルに監視信号として報酬を提供します。
この方法には次の問題点があります:
1. エージェント モデルによって生成された報酬は簡単に破棄または改ざんされる可能性があります。
#2. トレーニング プロセス中、エージェント モデルは生成モデルと継続的に対話する必要があり、このプロセスは非常に時間がかかり、非効率的になる可能性があります。 高品質の監視信号を保証するために、エージェント モデルは生成モデルよりも小さくてはなりません。つまり、強化学習の最適化プロセス中に、少なくとも 2 つのより大きなモデルが交互に推論 (報酬の判断) を実行する必要があります。パラメータの更新(生成モデルパラメータの最適化)。このような設定は、大規模な分散トレーニングでは非常に不便になる可能性があります。
#3. 価値モデル自体は、人間の思考モデルと明確な対応関係を持ちません。 私たちは個別のスコアリングモデルを念頭に置いていません。実際、一定のスコア基準を長期間維持することは非常に困難です。むしろ、私たちが成長するにつれて形成する価値判断の多くは、日々の社会的交流から得られます。同様の状況に対するさまざまな社会的反応を分析することで、何が奨励され、何が奨励されないのかがわかるようになります。膨大な「社会化→フィードバック→改善」によって徐々に蓄積されたこれらの経験と合意は、人類社会の共通の価値判断となっています。
ダートマス、スタンフォード、Google DeepMind およびその他の機関による最近の研究では、ソーシャル ゲームによって構築された高品質のデータを、シンプルで効率的な調整アルゴリズムと組み合わせて使用することが、目標を達成する唯一の方法である可能性があることを示しています。これが調整の鍵です。
著者は、マルチエージェント ゲーム データでトレーニングされた位置合わせ手法を提案します。基本的なアイデアは、トレーニング フェーズでの報酬モデルと生成モデルのオンライン インタラクションを、ゲーム内の多数の自律エージェント間のオフライン インタラクション (高いサンプリング レート、ゲームの事前プレビュー) に移すものとして理解できます。ゲーム環境はトレーニングとは独立して実行され、大規模に並列化できます。監視信号は、エージェントの報酬モデルのパフォーマンスに依存するものから、多数の自律エージェントの集合知に依存するものへと移行します。
#この目的のために、著者はサンドボックスと呼ばれる仮想ソーシャル モデルを設計しました。サンドボックスはグリッド点で構成される世界であり、各グリッド点はソーシャル エージェントです。社会体には、各対話に対する質問、回答、フィードバックなどのさまざまな情報を保存するために使用される記憶システムがあります。社会的グループが質問に応答するたびに、最初に、この応答の文脈上の参照として、その質問に最も関連する N 個の過去の質問と回答を記憶システムから取得して返さなければなりません。この設計により、複数回のインタラクションにおいて社会体の位置を継続的に更新することができ、更新された位置は過去との一定の連続性を維持することができる。各ソーシャル グループには、初期化段階で異なるデフォルトの位置があります。
ゲーム データをアライメント データに変換する # 実験では、著者は 10x10 グリッドのサンドボックス (合計 100 の社会グループ) を使用して社会シミュレーションを実行し、社会ルール (いわゆるサンドボックス ルール) を定式化しました。問題を認識している 回答は、他の社会グループに良い印象を残すために、より社会的に調整されています。さらに、サンドボックスには記憶を持たない観察者も配置され、各社会的交流の前後の社会的グループの反応をスコア化しました。スコアリングは、調整とエンゲージメントの 2 つの側面に基づいて行われます。
#さまざまなモデルを使用してサンドボックス内で人間社会をシミュレーション 著者はサンドボックスを使用して、さまざまなサイズとさまざまなトレーニング段階の言語モデルをテストしました。全体として、davinci-003、GPT-4、ChatGPT などのアライメントを使用してトレーニングされたモデル (いわゆる「アライメントされたモデル」) は、より少ないインタラクション ラウンドで社会的に規範的な応答を生成できます。言い換えれば、アライメント トレーニングの重要性は、特別な対話ガイダンスを必要とせずに、「すぐに使える」シナリオでモデルをより安全にすることです。アライメントトレーニングを行わないモデルは、アライメントとエンゲージメントの全体的な最適な応答を達成するためにより多くのインタラクションを必要とするだけでなく、この全体的な最適の上限もアライメントされたモデルよりも大幅に低くなります。
著者は、サンドボックス内の履歴データからアライメントを学習するための安定したアライメントと呼ばれる、シンプルで簡単なアライメント アルゴリズムも提案しています。安定したアライメント アルゴリズムは、各ミニバッチでスコア変調された対比学習を実行します。応答のスコアが低いほど、対比学習の境界値が大きく設定されます。つまり、安定したアライメントは、小さなバッチのデータを継続的にサンプリングすることによって行われます。 、モデルは、高スコアの応答に近く、低スコアの応答にはあまり近づかない応答を生成することが奨励されます。安定したアライメントは最終的に SFT 損失に収束します。著者らは、安定したアライメントと SFT、RLHF の違いについても説明します。
作者はサンドボックスゲームのデータを特に重視しており、仕組みの設定上、大量のデータが存在します。修正(リビジョン)を経て収録され、社会的価値観に適合したデータとなります。著者は、この大量のデータと段階的な改善が安定したトレーニングの鍵であることをアブレーション実験を通じて証明しています。
著者はまた、アルゴリズムのパフォーマンスを現在の主流 トレーニングの安定性とパフォーマンスの比較が行われ、安定したアライメントが報酬モデリングよりも安定しているだけでなく、一般的なパフォーマンスとアライメントのパフォーマンスにおいて RLHF に匹敵することが証明されました (ChatGPT は非公開のモデル、データ、アルゴリズムを使用しているため、参照のみを目的としています) )。
#インスタンス生成結果:
##詳細については、論文を参照してください。 。
以上が10 行のコードは RLHF に相当し、ソーシャル ゲーム データを使用してソーシャル アラインメント モデルをトレーニングします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。