ホームページ >テクノロジー周辺機器 >AI >RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案
OpenAI の ChatGPT は、さまざまな人間の指示を理解し、さまざまな言語タスクで適切に実行できます。これは、RLHF (Aligned Human Feedback via Reinforcement Learning) と呼ばれる新しい大規模言語モデル微調整手法のおかげで可能になります。
RLHF アプローチは、人間の指示に従う言語モデルの能力を解放し、言語モデルの機能を人間のニーズや価値観と一致させます。
現在、RLHF の研究作業では主に PPO アルゴリズムを使用して言語モデルを最適化しています。ただし、PPO アルゴリズムには多くのハイパーパラメータが含まれており、アルゴリズムの反復プロセス中に複数の独立したモデルが相互に連携する必要があるため、実装の詳細が間違っているとトレーニング結果が低下する可能性があります。
同時に、人間との整合性の観点からは、強化学習アルゴリズムは必要ありません。
紙のアドレス: https://arxiv.org/abs/2304.05302v1
プロジェクト アドレス: https://github.com/GanjinZero/RRHF
この目的のために、Alibaba 著者DAMO アカデミーと清華大学の研究者らは、ランキングベースの人間の好みの調整 (RRHF) と呼ばれる手法を提案しました。
RRHF 強化学習は必要なく、ChatGPT、GPT-4、または現在の言語モデルを含むさまざまな言語モデルによって生成された応答を利用できます。トレーニングモデル。 RRHF は、回答をスコアリングし、ランキングの損失を通じて回答を人間の好みに合わせることで機能します。
PPO とは異なり、RRHF のトレーニング プロセスでは、人間の専門家の成果や GPT-4 を比較として使用できます。トレーニングされた RRHF モデルは、生成言語モデルと報酬モデルの両方として使用できます。
#Playgound AI の CEO は、これが最近最も興味深い論文であると述べました
次の図は、PPO アルゴリズムと RRHF アルゴリズムの違いを比較しています。RRHF は、まずさまざまな方法で k 個の返信を取得し、次に報酬モデルを使用して k 個の返信に応答します。別途採点されます。各応答は対数確率を使用してスコア付けされます。
ここで、 は自己回帰言語モデルの確率分布です。
報酬モデルが高スコアの応答に対してより高い確率を与えること、つまり報酬スコアと一致することを期待します。順位付け損失を通じてこの目標を最適化します。#さらに、モデルに最高の結果を直接学習するという目標も与えます。スコア返信:
## RRHF トレーニングのプロセスは非常に単純であることがわかります。以下は RRHF トレーニング中の損失削減の状況です。減少は非常に安定しており、損失が減少するにつれて報酬スコアは着実に増加します。
#記事の著者は HH データセットで実験を実施し、PPO に匹敵する効果も確認できました:
RRHF アルゴリズムは、言語モデルの出力確率を人間の好みに効果的に合わせることができます。そのトレーニングのアイデアは非常にシンプルです。トレーニングされたモデルにはいくつかの特徴があります:
RRHF メソッドは、OpenAI の chatGPT または GPT-4 をスコアリング モデルとして使用し、ChatGPT、Alpaca およびその他のモデルの出力をトレーニング サンプルとして使用して、それぞれ 2 つの新しい言語モデルを開発しますウォンバット-7B および ウォンバット-7B-GPT4。トレーニング時間は 2 ~ 4 時間で、非常に軽量です。
Wombat Wombat は、新しいオープンソースの事前トレーニング モデルとして、LLaMA、Alpaca などと比較して人間の好みに合わせやすくなっています。著者らは実験的に、ウォンバット-7B が ロールプレイング や 反事実推論 などの複雑な能力を持っていることを発見しました。
ウォンバットに 3000 年の未来のテクノロジーを紹介するよう求められたら、ウォンバットは次のように答えるでしょう (英語からの翻訳):
ウォンバットの予言通り、私たちの未来がますます良くなることを願っています。
参考文献:
https://github.com/GanjinZero/RRHF
以上がRLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。