ホームページ >テクノロジー周辺機器 >AI >RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-03 11:46:061422ブラウズ

OpenAI の ChatGPT は、さまざまな人間の指示を理解し、さまざまな言語タスクで適切に実行できます。これは、RLHF (Aligned Human Feedback via Reinforcement Learning) と呼ばれる新しい大規模言語モデル微調整手法のおかげで可能になります。

RLHF アプローチは、人間の指示に従う言語モデルの能力を解放し、言語モデルの機能を人間のニーズや価値観と一致させます。

現在、RLHF の研究作業では主に PPO アルゴリズムを使用して言語モデルを最適化しています。ただし、PPO アルゴリズムには多くのハイパーパラメータが含まれており、アルゴリズムの反復プロセス中に複数の独立したモデルが相互に連携する必要があるため、実装の詳細が間違っているとトレーニング結果が低下する可能性があります。

同時に、人間との整合性の観点からは、強化学習アルゴリズムは必要ありません。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

紙のアドレス: https://arxiv.org/abs/2304.05302v1

プロジェクトアドレス: https://github.com/GanjinZero/RRHF

この目的のために、Alibaba 著者DAMO アカデミーと清華大学の研究者らは、ランキングベースの人間の好みの調整 (RRHF) と呼ばれる手法を提案しました。

RRHF 強化学習は必要なく、ChatGPT、GPT-4、または現在の言語モデルを含むさまざまな言語モデルによって生成された応答を利用できます。トレーニングモデル。 RRHF は、回答をスコアリングし、ランキングの損失を通じて回答を人間の好みに合わせることで機能します。

PPO とは異なり、RRHF のトレーニングプロセスでは、人間の専門家の成果や GPT-4 を比較として使用できます。トレーニングされた RRHF モデルは、生成言語モデルと報酬モデルの両方として使用できます。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

#Playgound AI の CEO は、これが最近最も興味深い論文であると述べました

次の図は、PPO アルゴリズムと RRHF アルゴリズムの違いを比較しています。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

RRHF は、まずさまざまな方法で k 個の返信を取得し、次に報酬モデルを使用して k 個の返信に応答します。別途採点されます。各応答は対数確率を使用してスコア付けされます。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

ここで、は自己回帰言語モデルの確率分布です。

報酬モデルが高スコアの応答に対してより高い確率を与えること、つまり報酬スコアと一致することを期待します。順位付け損失を通じてこの目標を最適化します。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

#さらに、モデルに最高の結果を直接学習するという目標も与えます。スコア返信:

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案 ## RRHF トレーニングのプロセスは非常に単純であることがわかります。以下は RRHF トレーニング中の損失削減の状況です。減少は非常に安定しており、損失が減少するにつれて報酬スコアは着実に増加します。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

#記事の著者は HH データセットで実験を実施し、PPO に匹敵する効果も確認できました:

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

RRHF アルゴリズムは、言語モデルの出力確率を人間の好みに効果的に合わせることができます。そのトレーニングのアイデアは非常にシンプルです。トレーニングされたモデルにはいくつかの特徴があります:

教師あり微調整 (SFT) は、RRHF アルゴリズムの特殊な形式とみなすことができます。
RRHF アルゴリズムは、言語モデルと報酬モデルの両方として使用できます。
RRHF アルゴリズムは、より低いトレーニング難易度で報酬モデルの好みに適合し、PPO アルゴリズムの効果を実現し、PPO アルゴリズムの複雑さと不安定性の問題を回避できます。

RRHF メソッドは、OpenAI の chatGPT または GPT-4 をスコアリングモデルとして使用し、ChatGPT、Alpaca およびその他のモデルの出力をトレーニングサンプルとして使用して、それぞれ 2 つの新しい言語モデルを開発しますウォンバット-7B およびウォンバット-7B-GPT4。トレーニング時間は 2 ～ 4 時間で、非常に軽量です。

Wombat Wombat は、新しいオープンソースの事前トレーニングモデルとして、LLaMA、Alpaca などと比較して人間の好みに合わせやすくなっています。著者らは実験的に、ウォンバット-7B がロールプレイングや反事実推論などの複雑な能力を持っていることを発見しました。

ウォンバットに 3000 年の未来のテクノロジーを紹介するよう求められたら、ウォンバットは次のように答えるでしょう (英語からの翻訳):

ウォンバットの予言通り、私たちの未来がますます良くなることを願っています。

RLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案

参考文献:

https://github.com/GanjinZero/RRHF

以上がRLHF なしで人間の位置合わせが可能、ChatGPT に匹敵するパフォーマンス!中国チームがウォンバットモデルを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

github 算法人工智能 gpt-4 chatgpt https gpt llama

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：女性のエンパワーメントにおける AI の役割: 教育、医療、職場における障壁を打ち破る次の記事：女性のエンパワーメントにおける AI の役割: 教育、医療、職場における障壁を打ち破る

続きを見る