ホームページ >テクノロジー周辺機器 >AI >これらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。
ChatGPT の出現とその後の広範な議論により、RLHF、SFT、IFT、CoT などのあいまいな頭字語が世間に現れるようになりましたが、これはすべて ChatGPT の成功によるものです。これらのわかりにくい頭字語は何ですか?なぜそれらはそれほど重要なのでしょうか?この記事の著者は、これらのトピックに関するすべての重要な論文をレビューし、それらを分類して要約しました。
ChatGPT は、最初の言語モデル (LM) ベースの対話エージェントではありません。実際、Meta BlenderBot、Google LaMDA、DeepMind の Sparrow など、OpenAI よりも前に多くの組織が言語モデル対話エージェントをリリースしています。そして人類アシスタント。一部の組織は、オープンソースのチャットボットを構築する計画を発表し、ロードマップを公開しています (LAION の Open-Assistant など)。発表されていないだけで、同じことをやっている他の組織も確かにあります。
以下の表は、パブリックにアクセスできるかどうか、トレーニング データ、モデル アーキテクチャ、評価の詳細に基づいて、上記の AI チャットボットを比較しています。 ChatGPT に関連するデータはありません。ここで使用される情報は、ChatGPT の基礎と考えられる OpenAI の微調整モデルである InstructGPT です。
トレーニング データ、モデル、微調整には多くの違いがありますが、これらのチャットボットにはいくつかの共通点もあります - 説明以下は、ユーザーの指示に応答することを意味します。たとえば、ChatGPT にナッジに関する詩を書いてもらいます。
#テキストの予測から指示に従うまで一般に、基本的な言語モデリングには、実現するための目標が不十分です。ユーザーの指示に効率的に従うモデル。モデル作成者は、命令微調整 (IFT) も使用します。これは、さまざまなタスクで基本モデルを微調整でき、感情分析、テキスト分類、要約などの古典的な NLP タスクにも適用できます。
IFT は主に、命令、入力、出力の 3 つの部分で構成されます。入力はオプションであり、上記の ChatGPT の例のように、一部のタスクでは指示のみが必要です。入力と出力はインスタンスを構成します。特定の命令には複数の入力と出力を含めることができます。関連する例は次のとおりです ([Wang et al., '22])。
#IFT データは通常、人間の指示と言語モデルを使用してブートストラップされます。ブートストラップの場合、LM はサンプルがゼロのプロンプトに基づいて新しい命令、入力、出力を生成します。各ラウンドで、人間がモデルを作成および生成することから選択されたサンプルがモデルにプロンプトされます。データセットに対する人間とモデルの寄与は、次の図に示すようにスペクトルとして表現できます。
1 つは Unnatural 命令などの純粋なモデルによって生成された IFT データセットであり、もう 1 つはコミュニティのコレクションです。努力とマニュアル 超自然な指示のような指示を作成します。その間に、高品質のシード データ セットを選択し、Self-instruct などのブートストラップを実行します。 IFT 用のデータセットを収集するもう 1 つの方法は、既存の高品質なクラウドソーシング NLP データセットをさまざまなタスク (プロンプトを含む) に使用し、これらのデータセットを統一パターンまたはさまざまなテンプレートを使用した指示として使用することです。関連する作業には、T0、Natural 指示データセット、FLAN LM、OPT が含まれます-IML。
指示に安全に従う
LM 細かく調整された指示を使用しても、必ずしも有益で安全な応答が生成されるとは限りません。この動作の例としては、無効な応答 (ごまかし)、常に「申し訳ありません、わかりません」などの無効な応答を返すこと、機密トピックに関するユーザー入力に安全でない応答をすることなどが挙げられます。この問題を解決するために、モデル開発者は教師付き微調整 (SFT) を使用して、人間がラベル付けした高品質のデータに基づいて基礎となる言語モデルを微調整し、効果的で安全な応答を実現します。 SFT と IFT は密接に関連しています。命令チューニングは、教師あり微調整のサブセットとして考えることができます。最近の文献では、SFT フェーズは一般に、IFT に続く命令固有のトピックではなく、セキュリティのトピックに使用されます。この分類と説明は、将来的にはより明確なユースケースと方法を提供する予定です。
Google の LaMDA は、一連のルールに基づいてセキュリティ アノテーションを使用して会話データ セットを微調整します。これらのルールは通常、モデルの作成者によって事前に定義および制定され、有害性、差別、誤った情報などの幅広いトピックをカバーします。
一方、OpenAI の InstructGPT、DeepMind の Sparrow、Anthropic のConstitutionalAI はすべて、ヒューマン フィードバックからの強化学習 (RLHF) テクノロジーを使用しています。 RLHF では、モデルの応答は人間のフィードバック (より良い回答の選択など) に基づいてランク付けされ、その後、これらの注釈付き応答を使用してモデルがトレーニングされて、スカラー報酬が RL オプティマイザーに返されます。最後に、会話型エージェントが強化学習によってトレーニングされて、シミュレーションが行われます。優先モデル。
思考連鎖 (CoT) は、会話型エージェントから段階的な推論を引き出して出力を生成する、命令デモンストレーションの特殊なケースです。 CoT で微調整されたモデルは、段階的な推論を伴う人間による注釈付きの命令のデータセットを使用します。以下の例に示すように、オレンジ色のマーカーは命令を表し、ピンク色のマーカーは入力と出力を表し、青色のマーカーは CoT 推論を表します。
CoT で微調整されたモデルは、常識、算術、記号推論を含むタスクでより優れたパフォーマンスを発揮します。 CoT を使用した微調整は、無害性を達成するのに非常に効果的であることも示されており (RLHF より優れている場合もあります)、モデルは「申し訳ありませんが、この質問には答えることができません」という応答を生成することを躊躇しません。
要点のまとめ##この記事の要点をまとめます
1. トレーニング前のデータと比較すると、命令を微調整するために必要なデータはごく一部だけです。
2. 監視付き微調整では手動の注釈を使用して、モデルの出力をより安全で便利なものにします。
3. CoT の微調整により、ステップバイステップの思考タスクにおけるモデルのパフォーマンスが向上し、デリケートなトピックに対する無効な応答や回避が減少します。
対話エージェントの今後の開発についての考え
1. 人間のフィードバックから学ぶ上で RL はどの程度重要ですか? IFT または SFT で高品質のデータをトレーニングすることで、RLHF と同じパフォーマンスを得ることができますか?
2. Sparrow での SFT RLHF の使用は、LaMDA での SFT の使用と比較してどの程度安全ですか?
3. IFT、SFT、CoT、RLHF にはどのレベルの事前トレーニングが必要ですか?トレードオフとは何ですか?使用するのに最適な基本モデルは何ですか?
4. この記事で紹介されているモデルの多くは慎重に設計されており、エンジニアは特に失敗につながるパターンを収集し、問題に基づいて今後のトレーニング (プロンプトと方法) を改善します。対処された。これらの方法の効果を体系的に文書化し、再現するにはどうすればよいでしょうか?
以上がこれらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。