RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています-AI-php.cn

ホームページ

テクノロジー周辺機器

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

王林

Jun 24, 2024 pm 03:04 PM

プロジェクトアライメントアルゴリズムTDPO

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

人工知能分野の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが人類社会に強力かつ安全に役立つことを保証するために。初期の取り組みは、ヒューマンフィードバックを使用した強化学習法 (RLHF) を通じてこれらのモデルを管理することに重点を置き、より人間らしい AI への重要な一歩を示す印象的な結果をもたらしました。

その大きな成功にもかかわらず、RLHF はトレーニング中に非常に多くのリソースを消費します。したがって、最近では、学者たちは RLHF によって築かれた強固な基盤に基づいて、よりシンプルで効率的な政策最適化の道を模索し続け、直接選好最適化 (DPO) が誕生しました。 DPO は、数学的推論を通じて報酬関数と最適な戦略の間の直接マッピングを取得し、報酬モデルのトレーニングプロセスを排除し、選好データに基づいて直接戦略モデルを最適化し、「フィードバックから戦略へ」という直感的な飛躍を実現します。これにより、複雑さが軽減されるだけでなく、アルゴリズムの堅牢性も強化され、すぐに業界で新たな人気を獲得しました。

ただし、DPO は主に、逆 KL 発散制約の下でのポリシーの最適化に焦点を当てています。 DPO は、逆 KL 発散のモード探索特性により位置合わせパフォーマンスの向上に優れていますが、この特性は生成プロセスの多様性を低下させる傾向もあり、モデルの機能が制限される可能性があります。一方、DPO は文レベルの観点から KL 発散を制御しますが、モデル生成プロセスは基本的にトークンごとに行われます。文レベルで KL 発散を制御することは、DPO にはきめ細かい制御に限界があることと、KL 発散を調整する能力が弱いことを直感的に示します。これが、DPO トレーニング中に LLM の生成多様性が急速に低下する重要な要因の 1 つである可能性があります。

この目的を達成するために、中国科学院とユニバーシティ・カレッジ・ロンドンのWang Jun氏とZhang Haifeng氏のチームは、トークンレベルの観点からモデル化された大規模なモデル調整アルゴリズム、TDPOを提案しました。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

論文タイトル: トークンレベルの直接優先最適化
論文アドレス: https://arxiv.org/abs/2404.11999
コードアドレス: https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

モデル生成の多様性の大幅な低下の問題に対処するために、TDPO は、アライメントプロセス全体の目的関数をトークンレベルの観点から再定義し、変換しましたBradley-Terry モデルをアドバンテージ関数の形式に変換することで、アライメントプロセス全体を最終的に分析し、トークンレベルレベルから最適化できるようになります。 DPO と比較した TDPO の主な貢献は次のとおりです:

トークンレベルのモデリング手法: TDPO はトークンレベルの観点から問題をモデル化し、
きめ細かい KL の分析を実行します。発散制約: 順方向 KL 発散制約が理論的に各トークンに導入され、この方法でモデルの最適化をより適切に制約できるようになります。
明らかなパフォーマンス上の利点: DPO と比較して、TDPO はより優れた位置合わせパフォーマンスを達成し、多様なパレートフロントを生成できます。 dpoとTDPOの主な違いを下の図に示します。 DPO は文レベルの観点からモデル化されています

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

図 2: TDPO のアライメント最適化手法。 TDPO は、トークンレベルの観点からモデル化し、図の赤い部分に示すように、各トークンに順方向 KL 発散制約を導入します。これは、モデルオフセットの度合いを制御するだけでなく、モデルアライメントのベースラインとしても機能します。 2つの手法の具体的な導出過程を以下に紹介します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています背景: 直接優先最適化 (DPO)

DPO は数学的導出を通じて報酬関数と最適なポリシーの間の直接マッピングを取得し、RLHF プロセスの報酬モデリング段階を排除します:

式 (1)を Bradley-Terry (BT) 優先モデルに代入して、直接ポリシー最適化 (DPO) 損失関数を取得します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

ここで、 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますは、プリファレンスデータセット D からのプロンプト、勝った応答、および負けた応答で構成されるプリファレンスペアです。

TDPO

シンボルアノテーション

言語モデルの逐次生成プロセスと自己回帰生成プロセスをモデル化するために、TDPO は生成された応答を T トークン RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますで構成される形式として表現します。ここで、、はアルファベット (用語集)。

テキスト生成がマルコフ決定プロセスとしてモデル化される場合、状態はプロンプトと、 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますで表される現在のステップまでに生成されたトークンの組み合わせとして定義され、アクションは次に生成されるトークンに対応します。 by は RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています、トークンレベルの報酬はとして定義されます。

上記の定義に基づいて、TDPO は、ポリシー RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますに対して状態アクション関数、状態値関数、および利点関数を確立します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

ここで、 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますは割引係数を表します。

トークンレベルの視点からのヒューマンフィードバック強化学習

TDPOは理論的にはRLHFの報酬モデリングフェーズとRL微調整フェーズを修正し、それらをトークンレベルの視点から考慮された最適化目標に拡張します。

報酬モデリング段階では、TDPO は Bradley-Terry モデルとアドバンテージ関数の間の相関関係を確立しました:

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

RL 微調整ステージでは、TDPO は次の目的関数を定義しました:

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

導出

目的 (4) から開始して、TDPO は各トークンの最適戦略 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますと状態アクション関数の間のマッピング関係を導出します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

ここで、 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますは分割関数を表します。

式 (5) を式 (3) に代入すると、次のようになります:

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

ここで、 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますは、ポリシーモデルと参照モデルによって表される暗黙的な報酬関数の差を表し、

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

として表されます。

に対して RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますは、で重み付けされたとのシーケンスレベルの前方 KL 発散差を示し、

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

式 (8) に基づいて、TDPO 最尤損失関数は次のようにモデル化できます。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています実際には、

の損失が増加する傾向があり、

と RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっていますの差が増幅する傾向があります。TDPO は、式 (9) を次のように変更することを提案しています。ここで、は勾配伝播演算子を停止することを意味します。 RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

TDPO と DPO の損失関数を次のように要約します:

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています TDPO は各トークンでこの順方向 KL 発散制御を導入し、アライメントのパフォーマンスに影響を与えることなく、最適化プロセスの変更中に KL をより適切に制御できることがわかります。、それによってより良いパレートフロントを実現します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています実験設定

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています TDPOは、IMDb、Anthropic/hh-rlhf、MT-Benchデータセットで実験を実施しました。

IMDb

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

IMDb データセット上で、チームは GPT-2 を基本モデルとして使用し、次に siebert/sentiment-roberta-large-english を報酬モデルとして使用して、ポリシーモデルの出力を評価しました。実験結果を図 3 に示します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

図 3 (a) からわかるように、TDPO (TDPO1、TDPO2) は DPO よりも優れた報酬 KL パレートフロントを達成できますが、図 3 (b) ～ (d) からは次のことがわかります。 TDPO は、KL 発散制御において非常に優れたパフォーマンスを発揮します。これは、DPO アルゴリズムの KL 発散制御機能よりもはるかに優れています。

Anthropic HH

Anthropic/hh-rlhf データセットでは、チームは Pythia 2.8B をベースモデルとして使用し、モデル生成の品質を評価するために 2 つの方法を使用しました: 1) 既存の指標を使用する。2) を使用して評価する。 GPT-4。

最初の評価方法では、表 1 に示すように、チームはさまざまなアルゴリズムでトレーニングされたモデルのアライメントパフォーマンス (精度) と世代多様性 (エントロピー) のトレードオフを評価しました。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

TDPO アルゴリズムは、アライメントパフォーマンス (精度) において DPO および f-DPO よりも優れているだけでなく、応答の重要な指標である世代多様性 (エントロピー) においても利点があることがわかります。これら 2 つの大きなモデルによって生成されるため、より適切なトレードオフが実現されます。

2 番目の評価方法では、図 4 に示すように、チームはさまざまなアルゴリズムと人間の好みによってトレーニングされたモデル間の一貫性を評価し、それらをデータセット内の勝利応答と比較しました。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

DPO、TDPO1、TDPO2 アルゴリズムはすべて、温度係数 0.75 での勝利応答で 50% を超える勝率を達成することができ、これは人間の好みにより優れています。

MT-Bench

論文の最後の実験では、チームは Anthropic HH データセットでトレーニングされた Pythia 2.8B モデルを使用して、MT-Bench データセットの評価に直接使用しました。結果を図に示します。 5 表示します。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています

MT-Bench では、TDPO は他のアルゴリズムよりも高い勝率を達成できます。これは、TDPO アルゴリズムによってトレーニングされたモデルによって生成される応答の品質が高いことを十分に示しています。

さらに、DPO、TDPO、および SimPO アルゴリズムを比較する関連研究があります。リンクを参照してください: https://www.zhihu.com/question/651021172/answer/3513696851

によって提供される eval スクリプトに基づいています。 eurus の評価基本モデル qwen-4b、mistral-0.1、および deepseek-math-base のパフォーマンスは、さまざまなアライメントアルゴリズム DPO、TDPO、および SimPO に基づく微調整トレーニングによって得られます。実験結果は次のとおりです。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています