ホームページ > 記事 > テクノロジー周辺機器 > RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
人工知能分野の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが人類社会に強力かつ安全に役立つことを保証するために。初期の取り組みは、ヒューマン フィードバックを使用した強化学習法 (RLHF) を通じてこれらのモデルを管理することに重点を置き、より人間らしい AI への重要な一歩を示す印象的な結果をもたらしました。
その大きな成功にもかかわらず、RLHF はトレーニング中に非常に多くのリソースを消費します。したがって、最近では、学者たちは RLHF によって築かれた強固な基盤に基づいて、よりシンプルで効率的な政策最適化の道を模索し続け、直接選好最適化 (DPO) が誕生しました。 DPO は、数学的推論を通じて報酬関数と最適な戦略の間の直接マッピングを取得し、報酬モデルのトレーニング プロセスを排除し、選好データに基づいて直接戦略モデルを最適化し、「フィードバックから戦略へ」という直感的な飛躍を実現します。これにより、複雑さが軽減されるだけでなく、アルゴリズムの堅牢性も強化され、すぐに業界で新たな人気を獲得しました。
ただし、DPO は主に、逆 KL 発散制約の下でのポリシーの最適化に焦点を当てています。 DPO は、逆 KL 発散のモード探索特性により位置合わせパフォーマンスの向上に優れていますが、この特性は生成プロセスの多様性を低下させる傾向もあり、モデルの機能が制限される可能性があります。一方、DPO は文レベルの観点から KL 発散を制御しますが、モデル生成プロセスは基本的にトークンごとに行われます。文レベルで KL 発散を制御することは、DPO にはきめ細かい制御に限界があることと、KL 発散を調整する能力が弱いことを直感的に示します。これが、DPO トレーニング中に LLM の生成多様性が急速に低下する重要な要因の 1 つである可能性があります。
この目的を達成するために、中国科学院とユニバーシティ・カレッジ・ロンドンのWang Jun氏とZhang Haifeng氏のチームは、トークンレベルの観点からモデル化された大規模なモデル調整アルゴリズム、TDPOを提案しました。
論文タイトル: トークンレベルの直接優先最適化
論文アドレス: https://arxiv.org/abs/2404.11999
コードアドレス: https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization
モデル生成の多様性の大幅な低下の問題に対処するために、TDPO は、アライメントプロセス全体の目的関数をトークンレベルの観点から再定義し、変換しましたBradley-Terry モデルをアドバンテージ関数の形式に変換することで、アライメント プロセス全体を最終的に分析し、トークン レベル レベルから最適化できるようになります。 DPO と比較した TDPO の主な貢献は次のとおりです:
トークンレベルのモデリング手法: TDPO はトークンレベルの観点から問題をモデル化し、
きめ細かい KL の分析を実行します。発散制約: 順方向 KL 発散制約が理論的に各トークンに導入され、この方法でモデルの最適化をより適切に制約できるようになります。
明らかなパフォーマンス上の利点: DPO と比較して、TDPO はより優れた位置合わせパフォーマンスを達成し、多様なパレート フロントを生成できます。 dpoとTDPOの主な違いを下の図に示します。 DPO は文レベルの観点からモデル化されています
図 2: TDPO のアライメント最適化手法。 TDPO は、トークン レベルの観点からモデル化し、図の赤い部分に示すように、各トークンに順方向 KL 発散制約を導入します。これは、モデル オフセットの度合いを制御するだけでなく、モデル アライメントのベースラインとしても機能します。 2つの手法の具体的な導出過程を以下に紹介します。
背景: 直接優先最適化 (DPO)
DPO は数学的導出を通じて報酬関数と最適なポリシーの間の直接マッピングを取得し、RLHF プロセスの報酬モデリング段階を排除します:
式 (1)を Bradley-Terry (BT) 優先モデルに代入して、直接ポリシー最適化 (DPO) 損失関数を取得します。
ここで、 は、プリファレンス データ セット D からのプロンプト、勝った応答、および負けた応答で構成されるプリファレンス ペアです。
TDPO
シンボルアノテーション
言語モデルの逐次生成プロセスと自己回帰生成プロセスをモデル化するために、TDPO は生成された応答を T トークン で構成される形式として表現します。ここで、、 はアルファベット (用語集)。
テキスト生成がマルコフ決定プロセスとしてモデル化される場合、状態はプロンプトと、で表される現在のステップまでに生成されたトークンの組み合わせとして定義され、アクションは次に生成されるトークンに対応します。 by は 、トークンレベルの報酬は として定義されます。
上記の定義に基づいて、TDPO は、ポリシー に対して状態アクション関数 、状態値関数 、および利点関数 を確立します。
ここで、 は割引係数を表します。
トークンレベルの視点からのヒューマンフィードバック強化学習
TDPOは理論的にはRLHFの報酬モデリングフェーズとRL微調整フェーズを修正し、それらをトークンレベルの視点から考慮された最適化目標に拡張します。
報酬モデリング段階では、TDPO は Bradley-Terry モデルとアドバンテージ関数の間の相関関係を確立しました:
RL 微調整ステージでは、TDPO は次の目的関数を定義しました:
導出
目的 (4) から開始して、TDPO は各トークンの最適戦略 と状態アクション関数 の間のマッピング関係を導出します。
ここで、は分割関数を表します。
式 (5) を式 (3) に代入すると、次のようになります:
ここで、 は、ポリシー モデル と参照モデル によって表される暗黙的な報酬関数の差を表し、
として表されます。に対して は、 で重み付けされた と のシーケンスレベルの前方 KL 発散差を示し、
式 (8) に基づいて、TDPO 最尤損失関数は次のようにモデル化できます。
実際には、
の損失が増加する傾向があり、と の差が増幅する傾向があります。TDPO は、式 (9) を次のように変更することを提案しています。 ここで、は勾配伝播演算子を停止することを意味します。
TDPO と DPO の損失関数を次のように要約します:TDPO は各トークンでこの順方向 KL 発散制御を導入し、アライメントのパフォーマンスに影響を与えることなく、最適化プロセスの変更中に KL をより適切に制御できることがわかります。 、それによってより良いパレートフロントを実現します。
実験設定
TDPOは、IMDb、Anthropic/hh-rlhf、MT-Benchデータセットで実験を実施しました。
IMDbIMDb データセット上で、チームは GPT-2 を基本モデルとして使用し、次に siebert/sentiment-roberta-large-english を報酬モデルとして使用して、ポリシー モデルの出力を評価しました。実験結果を図 3 に示します。
図 3 (a) からわかるように、TDPO (TDPO1、TDPO2) は DPO よりも優れた報酬 KL パレート フロントを達成できますが、図 3 (b) ~ (d) からは次のことがわかります。 TDPO は、KL 発散制御において非常に優れたパフォーマンスを発揮します。これは、DPO アルゴリズムの KL 発散制御機能よりもはるかに優れています。
Anthropic HH
Anthropic/hh-rlhf データセットでは、チームは Pythia 2.8B をベースモデルとして使用し、モデル生成の品質を評価するために 2 つの方法を使用しました: 1) 既存の指標を使用する。2) を使用して評価する。 GPT-4。
最初の評価方法では、表 1 に示すように、チームはさまざまなアルゴリズムでトレーニングされたモデルのアライメント パフォーマンス (精度) と世代多様性 (エントロピー) のトレードオフを評価しました。
TDPO アルゴリズムは、アライメント パフォーマンス (精度) において DPO および f-DPO よりも優れているだけでなく、応答の重要な指標である世代多様性 (エントロピー) においても利点があることがわかります。これら 2 つの大きなモデルによって生成されるため、より適切なトレードオフが実現されます。
2 番目の評価方法では、図 4 に示すように、チームはさまざまなアルゴリズムと人間の好みによってトレーニングされたモデル間の一貫性を評価し、それらをデータセット内の勝利応答と比較しました。
DPO、TDPO1、TDPO2 アルゴリズムはすべて、温度係数 0.75 での勝利応答で 50% を超える勝率を達成することができ、これは人間の好みにより優れています。
MT-Bench
論文の最後の実験では、チームは Anthropic HH データセットでトレーニングされた Pythia 2.8B モデルを使用して、MT-Bench データセットの評価に直接使用しました。結果を図に示します。 5 表示します。
MT-Bench では、TDPO は他のアルゴリズムよりも高い勝率を達成できます。これは、TDPO アルゴリズムによってトレーニングされたモデルによって生成される応答の品質が高いことを十分に示しています。
さらに、DPO、TDPO、および SimPO アルゴリズムを比較する関連研究があります。リンクを参照してください: https://www.zhihu.com/question/651021172/answer/3513696851
によって提供される eval スクリプトに基づいています。 eurus の評価 基本モデル qwen-4b、mistral-0.1、および deepseek-math-base のパフォーマンスは、さまざまなアライメント アルゴリズム DPO、TDPO、および SimPO に基づく微調整トレーニングによって得られます。実験結果は次のとおりです。
表 2: DPO、TDPO アルゴリズムと SimPO アルゴリズムのパフォーマンス比較
詳細な結果については、元の論文を参照してください。
以上がRLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。