ホームページ > 記事 > テクノロジー周辺機器 > 総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた
大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それらが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的なアプローチです。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。
最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しており、実際に広く使用されています。
DPO を使用する場合、暗黙的な報酬を取得する方法は、現在のポリシー モデルと教師あり微調整 (SFT) モデルの間の応答尤度比の対数を使用することです。ただし、報酬を構築するこの方法は、ブートストラップで生成されたメトリック (ポリシー モデルによって生成された応答のほぼ平均対数) と直接一致しません。トレーニングと推論のこの違いにより、パフォーマンスの低下が生じる可能性があります。
この目的を達成するために、バージニア大学助教授のMeng Rui、プリンストン大学の博士課程候補者Xia Mengzhou、助教授のChen Danqiが共同で、シンプルで効果的なオフライン選好最適化アルゴリズムであるSimPOを提案しました。 。 SimPO の設計は、連続ブラックボックス関数の最小化問題として最適化問題をモデル化することに基づいています。継続的な反復を通じて、SimPO は最適な最適化戦略を見つけ、効率的な収束を達成できます。従来の最適化アルゴリズムと比較すると、
アルゴリズムの核心は、優先順位の最適化目標の報酬関数と世代インジケーターの配置。 SimPO は 2 つの主なコンポーネントで構成されます: (1) ポリシー モデルを使用して報酬内のすべてのトークンの平均対数確率として計算された長さで正規化された報酬 (2) 勝敗を保証するための目標報酬差 応答間の報酬差。この差を超えています。
要約すると、SimPO には次の特徴があります:
チームは広範な分析を実施し、その結果、SimPO が嗜好データをより効果的に利用して、検証セット上で高品質の応答と低品質の応答の可能性をより正確にランク付けできることが示されました。これにより、より優れた戦略の作成がさらに可能になります。モデル。表 1 に示すように、チームは Llama3-8B 命令に基づいて最高のパフォーマンスを備えたモデルを構築しました。このモデルは、AlpacaEval 2 で長さ制御された勝率 44.7 を達成し、リーダーボードの Claude 3 Opus を上回りました。さらに、アリーナ ハードでの勝率は 33.8 で、現在最も強力な 8B オープン ソース モデルとなっています。
SimPO: Simple Preference Optimization
理解を容易にするために、以下ではまず DPO の背景を紹介し、次に DPO の報酬と生成に使用される尤度尺度との違いを説明し、参照フリーの最適化を提案します。この問題を軽減するための代替報酬式。最後に、SimPO 目標は、目標報酬マージン項を Bradley-Terry モデルに統合することによって導出されます。
背景: 直接設定最適化 (DPO)
DPO は、最も一般的に使用されるオフライン設定最適化手法の 1 つです。 DPO は明示的な報酬モデルを学習しませんが、最適なポリシーを持つ閉形式式を使用して報酬関数 r を再パラメータ化します:
ここで、 π_θ はポリシー モデル、 π_ref は参照ですポリシー (通常は SFT モデル)、Z (x) は分割関数です。報酬を構築するこの方法を Bradley-Terry (BT) ランキング目標 に統合することで、DPO は報酬モデルの代わりにポリシー モデルを使用して嗜好データの確率を表すことができ、その結果、次の目標が得られます:
ここで、(x, y_w, y_l) は、プリファレンス データセット D からのプロンプト、勝った応答、および負けた応答で構成されるプリファレンスのペアです。
生成された結果と一致する、参照不要のシンプルな報酬
DPO の報酬と生成された報酬の違い。式 (1) を暗黙的な報酬式として使用すると、次のような欠点があります。(1) トレーニング フェーズでは参照モデル π_ref が必要になり、追加のメモリと計算コストがかかります。(2) トレーニング フェーズで最適化された報酬と使用される世代。推論では指標ごとに違いがあります。具体的には、生成段階では、ポリシー モデル π_θ を使用して、次のように定義される平均対数尤度をほぼ最大化できるシーケンスを生成します。
デコード中にこの指標を直接最大化することは非常に困難です。プロセスでは、貪欲なデコード、ビーム サーチ、カーネル サンプリング、top-k サンプリングなどのさまざまなデコード戦略をこれに使用できます。さらに、このメトリクスは、言語モデルが複数選択タスクを実行するときにオプションをランク付けするためによく使用されます。 DPO では、任意のトリプレット (x, y_w, y_l) について、報酬ランキング r (x, y_w) > r (x, y_l) を満たすことは、必ずしも尤度ランキング を満たすことを意味しません。実際、DPO を使用してトレーニングすると、ホールドアウト セット内のトリプレットの約 50% のみがこの条件を満たします (図 4b を参照)。
長さで正規化された報酬を構築します。当然のことながら、ブートストラップで生成された尤度メトリックと一致するように、(3) で p_θ を使用して DPO の報酬構築を置き換えることを検討します。これにより、長さが正規化された報酬が生成されます:
ここで、β は報酬の差の大きさを制御する定数です。研究チームは、応答の長さに基づいて報酬を正規化することが重要であることを発見しました。報酬の式から長さの正規化項を削除すると、モデルはより長くても品質の低いシーケンスを生成する傾向がありました。これにより、報酬を構築する際に参照モデルが必要なくなり、その結果、参照モデルに依存するアルゴリズムよりもメモリと計算効率が向上します。
SimPOターゲット
ターゲット報酬の差。さらに、チームは、ブラッドリー・テリー目標に目標報酬差項 γ > 0 を導入し、勝利した応答の報酬 r (x, y_w) が失敗した応答の報酬 r (x, y_l) を確実に上回るようにしました。少なくとも γ によって:
2 つのクラス間の違いは、分類器の汎化能力に影響を与えることが知られています。ランダムなモデル初期化を使用する標準的なトレーニング設定では、通常、ターゲット マージンを増やすと汎化パフォーマンスが向上します。好みの最適化では、これら 2 つのカテゴリは、単一の入力に対する応答の勝敗を表します。
実際にチームは、ターゲットギャップが増加すると、最初は生成品質が向上しますが、ギャップが大きすぎると生成品質が低下することを観察しました。 DPO の一種である IPO も SimPO と同様の目標報酬マージンを構築しますが、その全体的な目標は SimPO よりも効果的ではありません。
目標。最後に、方程式 (4) を方程式 (5) に代入することで、SimPO のターゲットを取得できます。
要約すると、SimPO は、生成されたインジケーターと直接一致する暗黙的な報酬形式を採用しており、それによって、参照モデルの要件が必要です。さらに、勝敗応答を区別するために目標報酬差 γ を導入します。
モデルとトレーニングのセットアップ。チームの実験では、Llama3-8B と Mistral-7B の 2 種類のモデルを Base 設定と Instruct 設定の両方で使用しました。
評価ベンチマーク。チームは、最も一般的に使用されている 3 つのオープン コンプライアンス ベンチマーク、MT-Bench、AlpacaEval 2、および Arena-Hard v0.1 を使用しました。これらのベンチマークは、さまざまなクエリに対するモデルの多様な会話機能を評価し、コミュニティで広く採用されています。表 2 に詳細を示します。
ベースラインメソッド。表 3 に、SimPO と比較した他のオフライン設定最適化手法を示します。
主な結果とアブレーション研究
SimPOは、以前の既存のプリファレンス最適化手法よりも常に大幅に優れたパフォーマンスを発揮します。表 4 に示すように、すべての設定最適化アルゴリズムは SFT モデルよりも優れたパフォーマンスを発揮しますが、シンプルな SimPO はすべてのベンチマークと設定で最高のパフォーマンスを達成します。全体的にこのような大きなリードは、SimPO の堅牢性と有効性を示しています。
ベンチマークの品質は異なります。 Arena-Hard での勝率は AlpacaEval 2 での勝率よりも大幅に低いことがわかり、Arena-Hard の方がより難しいベンチマークであることを示しています。
設定を指示すると、パフォーマンスが大幅に向上します。ご覧のとおり、Instruct セットアップは、すべてのベンチマークで全体的に Base セットアップよりも優れています。これは、これらのモデルによる初期化に高品質の SFT モデルが使用されていることと、これらのモデルによって生成される嗜好データの品質が高いためである可能性があります。
SimPO の 2 つの主要なデザインが重要です。表 5 は、SimPO の主要な設計ごとのアブレーション実験の結果を示しています。 (1)(4)の長さの正規化を削除します(つまり、LNなし)。(2)(6)のターゲット報酬の差を0に設定します(つまり、γ = 0)。
長さの正規化を削除すると、結果に最大の影響が生じます。チームの調査では、これによりモデルが長く反復的なパターンを生成し、出力の全体的な品質が大幅に低下することが判明しました。 γ を 0 に設定すると、SimPO のパフォーマンス低下にもつながり、0 が最適なターゲット報酬マージンではないことを示します。
これら 2 つの設計選択の詳細な分析については、元の論文を参照してください。
DPO と SimPO の詳細な比較
最後に、チームは、(1) 尤度-長さの相関、(2) 報酬の構築、( 3) の 4 つの観点から DPO と SimPO を包括的に比較しました。 ) 報酬の精度、(4) アルゴリズムの効率。結果は、精度と効率の点で SimPO が DPO よりも優れていることを示しています。
DPO 報酬は、長さの正規化を暗黙的に促進します。
DPO 報酬式 (分割関数なし) には長さの正規化に関する明示的な用語がありませんが、ポリシー モデルと参照モデルの間の対数比は暗黙的に長さのバイアスをオフセットすることができます。表 6 と図 4a に示すように、DPO を使用すると、長さの正規化を行わない方法 (LN なしの SimPO と表記) と比較して、平均対数尤度と応答長の間のスピアマン相関係数が減少します。ただし、SimPO と比較すると、依然として強い正の相関関係が示されています。
DPO 報酬が生成された可能性と一致しません。
DPO の報酬と平均対数尤度メトリクスの間には差があり、これは生成に直接影響します。図 4b に示すように、UltraFeedback トレーニング セットのインスタンスでは、、データ ペアのほぼ半分が を持っています。対照的に、SimPO は平均対数尤度 (β でスケール) を報酬式として直接使用するため、差異が完全に排除されます。
DPO は報酬の精度の点で SimPO ほど良くありません。
図 4c は、SimPO と DPO の報酬精度を比較しています。これは、最終的に学習された報酬がホールドアウト セットの優先ラベルとどの程度一致しているかを評価します。 SimPO の報酬精度が DPO よりも高いことが観察できます。これは、SimPO の報酬設計がより効果的な一般化と高品質の生成の達成に役立つことを示しています。
SimPO は DPO よりもメモリ効率と計算効率が優れています。
SimPO のもう 1 つの大きな利点は効率性です。結局のところ、参照モデルを使用しないからです。図 4d は、8×H100 GPU で Llama3-Base セットアップを使用した場合の SimPO および DPO の全体的なランタイムと GPU ごとのピーク メモリ使用量を示しています。 SimPO は、参照モデルを使用したフォワード パスの排除により、元の DPO 実装と比較して実行時間を約 20%、GPU メモリ使用量を約 10% 削減します。
詳しくは元記事をお読みください。
以上が総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。