RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。-AI-php.cn

ホームページ

テクノロジー周辺機器

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

王林

Jun 05, 2023 pm 04:03 PM

ai研究

最近、大規模なデータセットでトレーニングされた教師なし言語モデルが驚くべき機能を達成しました。ただし、これらのモデルは、さまざまな目標、優先順位、スキルセットを持つ人間によって生成されたデータに基づいてトレーニングされており、その一部は必ずしも模倣されることが期待されていません。

安全で高性能、制御可能な AI システムを構築するには、非常に幅広い知識と機能からモデルの望ましい応答と動作を選択することが重要です。既存の手法の多くは、人間が安全で有益であると考える行動のタイプを表す、慎重に精選された人間の嗜好セットを使用することによって、言語モデルに望ましい行動を教え込んでいます。この嗜好学習段階は、大規模なテキストデータセットに対して行われます。大規模な教師なし事前学習の初期段階の後、 -トレーニング。

最も単純な好みの学習方法は、人間によって実証された高品質な応答の教師あり微調整ですが、最近比較的人気のあるクラスの方法は、人間 (または人工知能) のフィードバックによるものです。強化学習 (RLHF/RLAIF) を実行します。 RLHF メソッドは、報酬モデルを人間の好みのデータセットと照合し、RL を使用して言語モデルポリシーを最適化し、元のモデルから過度に逸脱することなく高い報酬を割り当てる応答を生成します。

RLHF は優れた会話機能とコーディング機能を備えたモデルを生成しますが、RLHF パイプラインは教師あり学習よりもはるかに複雑で、複数の言語モデルのトレーニングとトレーニングのループが含まれます。言語モデルポリシーからのサンプリングでは、大きな計算コスト。

そして最近の研究では、既存の手法で使用されている RL ベースの目標は、単純なバイナリクロスエントロピー目標を使用して正確に最適化できるため、大幅に改善されることが示されています。簡素化されたプリファレンス学習パイプライン。つまり、明示的な報酬モデルや強化学習を必要とせずに、人間の好みに合わせて言語モデルを直接最適化することは完全に可能です。

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

#紙のリンク: https://arxiv.org/pdf/2305.18290 .pdf

スタンフォード大学およびその他の機関の研究者は、直接選好最適化 (DPO) を提案しました。このアルゴリズムは、既存の RLHF アルゴリズムを暗黙的に最適化します。同じ目標 (KL による報酬の最大化 - 発散)制約) ですが、実装は簡単で、トレーニングも簡単です。

実験により、DPO は、PPO の RLHF に基づく方法を含む既存の方法と少なくとも同じくらい効果的であることが示されています。

DPO アルゴリズム

既存のアルゴリズムと同様、DPO も理論的な選好モデル (ブラッドリー-テリーモデルなど) に依存して、与えられた報酬関数がどの程度適合しているかを測定します。経験的な好みのデータ。ただし、既存の方法では、選好モデルを使用して選好損失を定義し、報酬モデルをトレーニングしてから、学習した報酬モデルを最適化するポリシーをトレーニングしますが、DPO では変数の変更を使用して、選好損失をポリシーの関数として直接定義します。したがって、モデル応答の人間の嗜好データセットを考慮すると、DPO は、トレーニング中にポリシーから報酬関数やサンプルを明示的に学習する必要なく、単純なバイナリクロスエントロピー目標を使用してポリシーを最適化できます。

DPO 更新により、優先応答と非優先応答の相対対数確率が増加しますが、モデルの劣化を防ぐためにサンプルごとの動的な重要度の重みが含まれています。研究者らは、これが次のことであることを発見しました。単純な確率比ターゲットでは劣化が発生します。

DPO を機構的に理解するには、損失関数 RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。の勾配を分析すると便利です。パラメータ θ に関する勾配は次のように記述できます:

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

ここで、 RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。は、言語モデルと参照モデルによって暗黙的に定義された報酬です。直感的には、損失関数 RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。の勾配は、好ましい完了 y_w の尤度を増加させ、好ましくない完了 y_l の可能性を減少させます。

重要なのは、これらのサンプルの重みは暗黙的報酬モデルによって決定されるということです。 RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。気に入らない完了の評価は、β というスケールによって決定されます。、暗黙的報酬モデルがランキングの完了においてどの程度不正確であるか、これは KL 制約の強さの反映でもあります。重み付け係数を持たないこの方法の素朴なバージョンは言語モデルの劣化につながるため、実験はこの重み付けの重要性を示しています (付録表 2)。

論文の第 5 章では、研究者は DPO 手法についてさらに説明し、理論的なサポートを提供し、DPO の利点を RLHF (PPO など) の Actor-Critic アルゴリズムと比較しました。問題。具体的な詳細については、元の論文を参照してください。

実験

実験では、研究者は、設定に基づいてポリシーを直接トレーニングする DPO の能力を評価しました。

まず、よく制御されたテキスト生成環境で、彼らは次の質問を検討しました。PPO などの一般的なプリファレンス学習アルゴリズムと比較して、DPO は参照ポリシーにおける報酬の最大化とトレードオフになります。 KLダイバージェンスの最小化?次に、大規模なモデルと、要約や対話を含むより困難な RLHF タスクに対する DPO のパフォーマンスを評価しました。

最終的に、ほとんどのハイパーパラメータ調整により、DPO は報酬を学習しながら、PPO を使用した RLHF などの強力なベースラインと同等、またはそれ以上のパフォーマンスを発揮することがわかりました。この関数は最高の結果を返します。 N 個のサンプリング軌跡の結果。

タスクに関しては、研究者らは 3 つの異なるオープンエンド型テキスト生成タスクを検討しました。すべての実験で、アルゴリズムは優先データセット RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。からポリシーを学習します。

制御された感情の生成では、x は IMDb データセットからの映画レビューの接頭辞であり、ポリシーは肯定的な感情を含む y を生成する必要があります。比較評価のために、実験では事前にトレーニングされた感情分類子を使用して好みのペアを生成します ( RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。 )。

#SFT の場合、研究者は IMDB データセットのトレーニング分割のコメントに収束するまで GPT-2-large を微調整しました。要約すると、x は Reddit からのフォーラム投稿であり、戦略は投稿内の重要なポイントの概要を生成する必要があります。以前の研究に基づいて、実験では Reddit TL;DR 概要データセットと Stiennon らが収集した人間の好みを使用します。この実験では、人が書いたフォーラム記事の要約 2 と RLHF の TRLX フレームワークに基づいて微調整された SFT モデルも使用されました。人間の嗜好データセットは、Stiennon らによって、異なるものの同様にトレーニングされた SFT モデルから収集されたサンプルです。

最後に、1 ターンの会話における x は人間に関する質問であり、天体物理学から人間関係のアドバイスまで何でもあります。ポリシーは、ユーザーのクエリに対して魅力的で役立つ応答を提供する必要があります。ポリシーは、ユーザーのクエリに対して興味深く役立つ応答を提供する必要があります。実験では、人間と自動アシスタントの間の 170,000 の会話が含まれる、人間の有益および無害な会話セットを使用します。各テキストは、大規模な (未知ではあるが) 言語モデルによって生成された 1 対の応答と、人間が好む応答を表す優先ラベルで終わります。この場合、事前トレーニングされた SFT モデルは利用できません。したがって、実験では、SFT モデルを形成するために、推奨される補完のみについて既製の言語モデルを微調整します。

研究者らは 2 つの評価方法を使用しました。制約付き報酬最大化目標の最適化における各アルゴリズムの効率を分析するために、制御された感情生成環境における報酬達成の限界と基準戦略からの KL 乖離によって各アルゴリズムを実験で評価します。実験ではグラウンドトゥルースの報酬関数 (感情分類器) を使用できるため、この限界を計算できます。しかし実際には、グラウンドトゥルースの報酬関数は不明です。したがって、ベースライン戦略の勝率によってアルゴリズムの勝率を評価し、要約およびシングルラウンド対話設定における要約の品質と応答の有用性の人による評価の代理として GPT-4 を使用します。要約の場合、実験ではテストマシン内の参照要約が制限として使用され、対話の場合、テストデータセット内の優先応答がベースラインとして選択されます。既存の研究では、言語モデルが既存の指標よりも優れた自動評価器である可能性があることが示唆されていますが、研究者らは人を対象とした研究を実施し、評価に GPT-4 を使用する実現可能性を実証しました。GPT-4 は人間の場合に強く判断されました。人間と GPT-4 の相関関係一般に、ヒューマン・アノテーター間の合意と同等かそれ以上です。

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

DPO に加えて、研究者らは人間の好みとの一貫性を維持するために、いくつかの既存のトレーニング言語モデルも評価しました。最も単純な実験では、概要タスクに関する GPT-J のゼロショットプロンプトと、対話タスクに関する Pythia-2.8B の 2 ショットプロンプトを調査します。さらに、実験では SFT モデルと Preferred-FT を評価します。 Preferred-FT は、SFT モデル (感情制御と要約) または一般言語モデル (シングルターン対話) から選択された完了 y_w に関する教師あり学習によって微調整されたモデルです。もう 1 つの擬似教師ありアプローチは尤度法です。これは、y_w に割り当てられる確率を最大化し、y_l に割り当てられる確率を最小化するようにポリシーを最適化するだけです。実験では、「Unlikehood」に対してオプションの係数 α∈[0,1] を使用します。彼らはまた、嗜好データから学習した報酬関数を使用した PPO と PPO-GT も検討しました。 PPO-GT は、制御された感情設定で利用可能なグラウンドトゥルース報酬関数から学習されたオラクルです。感情実験では、チームは PPO-GT の 2 つの実装 (既製バージョンと修正バージョン) を使用しました。後者では、報酬を正規化し、ハイパーパラメーターをさらに調整してパフォーマンスを向上させます (実験では、報酬を学習して「通常の」PPO を実行する場合にもこれらの変更を使用しました)。最後に、N 個のベースラインのうち最良のものを検討し、SFT モデル (会話用語では Preferred-FT) から N 個の応答をサンプリングし、嗜好データセットから学習した報酬関数に基づいて最高スコアの応答を返します。この高性能アプローチは報酬モデルの品質を PPO の最適化から切り離しますが、テスト時にクエリごとに N 個のサンプル完了が必要となるため、中程度の N であっても計算的には非現実的です。

図 2 は、感情設定におけるさまざまなアルゴリズムの報酬 KL 限界を示しています。

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

図 3 は、DPO が比較的早く最適なパフォーマンスに収束することを示しています。

RLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。

研究の詳細については、元の論文を参照してください。

以上がRLHF の「RL」は必要ですか?バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その効果はより優れています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。