搜尋
首頁科技週邊人工智慧從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RLHF)來管理這些模型,成效顯著,標誌著向更人性化 AI 邁出的關鍵一步。

儘管 RLHF 取得了巨大成功,但在訓練過程中 RLHF 非常消耗資源。因此,近段時間學者們在 RLHF 奠定的堅實基礎上,繼續探索更為簡單且高效的策略優化路徑,催生了直接偏好優化(DPO)的誕生。 DPO 透過數學推理得到獎勵函數與最優策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好資料上優化策略模型,實現了從「回饋到策略」的直觀飛躍。這不僅減少了複雜度,也增強了演算法的穩健性,迅速成為業界的新寵。

然而,DPO 主要關注在逆 KL 散度約束下的策略最佳化。由於逆 KL 散度的 mode-seeking 特性,DPO 在提升對齊性能方面表現出色,但這一特性也傾向於在生成過程中減少多樣性,可能限制模型的能力。另一方面,儘管 DPO 從句子級的角度控制 KL 散度,模型的生成過程本質上是逐個 token 進行的。從句子層級控制 KL 散度直觀上顯示 DPO 在細粒度控制上有限制,對 KL 散度的調節能力較弱,可能是 DPO 訓練過程中 LLM 的生成多樣性迅速下降的關鍵因素之一。

為此,來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊演算法:TDPO。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

  • 論文標題:Token-level Direct Preference Optimization

  • 論文地址:https://arxiv.org/abs/2404.1199999303000707070703030g? /Token-level-Direct-Preference-Optimization

  • 為了應對模型產生多樣性顯著下降的問題,TDPO 從token-level 的角度重新定義了整個對齊流程的目標函數,並透過將Bradley-Terry 模型轉換為優勢函數的形式,使得整個對齊流程能最終從Token-level 層級進行分析與最佳化。相較於DPO 而言,TDPO 的主要貢獻如下:

Token-level 的建模方式:TDPO 從Token-level 的角度對問題進行了建模,對RLHF 進行了更精細的分析;

  • 細粒度KL 散度約束:在每個token 處從理論上引入了前向KL 散度約束,使方法能夠更好地約束模型優化;

  • 性能優勢明顯:相比於DPO 而言,TDPO 能夠實現更好的對齊性能和生成多樣性的帕累托前沿。

  • DPO 與 TDPO 的主要差異如下圖所示:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」         DPO 從 sentence-level 的角度進行建模

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」圖 2:TDPO 的對齊最佳化方式。 TDPO 從token-level 的角度進行建模,並在每個token 處引入了額外的前向KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時,充當了模型對齊的baseline

下面介紹兩者方法的具體推導過程。

背景:直接偏好優化(DPO)

DPO 透過數學推導,得到了獎勵函數與最優策略之間的直接映射,消除了RLHF 過程中的獎勵建模階段:

將公式(1) 代入Bradley-Terry (BT) 偏好模型中,得到直接策略最佳化(DPO)損失函數:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」是由來自偏好資料集 D 的 prompt、獲勝回應和失敗回應所構成的偏好對。

TDPO

符號標註

為了建模語言模型順序的、自回歸的產生過程,TDPO 將產生回應表示成 T 5 (詞彙表)。 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」當將文本生成建模為馬可夫決策過程時​​,狀態state 定義為prompt 和到當前step 為止已生成的token 的組合,表示為從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」,而動作action 則對應於下一個生成的token,表示為

,token 級獎勵定義為

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」基於上述提供的定義,TDPO 為策略從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」建立了狀態 - 動作函數

、狀態值函數

和優勢函數從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示折扣因子。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」Token-level 角度的人類回饋強化學習

TDPO 理論上修改了 RLHF 的獎勵建模階段和 RL 微調階段,將它們擴展為了從 token-level 角度考慮的最佳化目標。

對於獎勵建模階段, TDPO 建立了Bradley-Terry 模型和優勢函數之間的相關性:

對於RL 微調階段,TDPO 定義了以下目標函數:從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

推導

從目標(4) 出發,TDPO 在每個token 上推導了最優策略

和狀態- 動作函數從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」之間的映射關係:

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示配分函數。

將方程式(5) 代入方程式(3),我們得到:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示策略模型從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」和參考模型從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示的隱式獎勵函數差異,表示為

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

表示從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」的序列級前向KL 散度差異,按從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」加權,表示為從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

基於方程式(8),TDPO 最大似然損失函數可以建模為:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

實際中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」損失傾向於增加從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」,放大從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」之間的差異,TDPO 提出修改方程式(9) 為:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」是一個超參數,而

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數,而從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數,而從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數,而

其中

是一個超參數,而

其中🎜是一個超參數,而🎜🎜🎜🎜其中🎜是一個超參數,而🎜停止梯度傳播運算子。 🎜🎜我們將TDPO 和DPO 的損失函數總結如下:🎜🎜🎜🎜🎜由此可見,TDPO 在每個token 處引入了這種前向KL 散度控制,使得在優化過程中能夠更好地控制KL的變化,而不影響對齊性能,從而實現了更優的帕累托前緣。 🎜🎜🎜實驗設定🎜🎜🎜TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個資料集上進行了實驗。 🎜🎜🎜IMDb🎜🎜

在 IMDb 資料集上,該團隊採用了 GPT-2 作為基底模型,然後以 siebert/sentiment-roberta-large-english 作為獎勵模型評估策略模型輸出,實驗結果如圖 3 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從圖3 (a) 可以看出,TDPO (TDPO1,TDPO2) 能夠達到比DPO 更好的reward-KL 的帕累托前沿,而從圖3 (b)-(d) 則可以看出,TDPO 在KL 散度控制方面表現極為出色,遠優於DPO 演算法的KL 散度控制能力。

Anthropic HH

而在Anthropic/hh-rlhf 資料集上,該團隊採用了Pythia 2.8B 作為基底模型,採用兩種方式評估模型產生的好壞:1)使用現有的指標;2222222 )使用GPT-4 評測。

對於第一種評估方式,該團隊評估了不同演算法訓練的模型在對齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權衡,如表 1 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

可以看到TDPO 演算法不僅在對齊效能(Accuracy) 上優於DPO 和f-DPO,在產生多樣性(Entropy) 上也佔據優勢,在這兩個大模型產生回應的關鍵指標上達到了更好的權衡。

而對於第二種評估方式,該團隊評測了不同演算法訓練的模型和人類偏好的吻合度,與資料集中的獲勝響應作對比,如圖 4 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

DPO、TDPO1 和 TDPO2 演算法在溫度係數為 0.75 的情況下均能夠達到對獲勝響應的勝率高於 50%,較好地符合人類偏好。

MT-Bench

在論文中的最後一個實驗上,該團隊採用了在Anthropic HH 資料集上訓練好的Pythia 2.8B 模型直接用於MT-Bench 資料集評測,結果如圖5 所測試示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

在 MT-Bench 上,TDPO 能夠達到比其他演算法更高的獲勝機率,這充分說明了 TDPO 演算法訓練的模型產生的反應的品質更高。

此外,有相關研究對DPO、TDPO、SimPO 演算法進行了對比,可參考連結:https://www.zhihu.com/question/651021172/answer/3513696851

基於eurus 提供的eval 腳本,測了基底模型qwen-4b、mistral-0.1、deepseek-math-base 是基於不同的對齊演算法DPO、TDPO、SimPO 微調訓練所得到的效能,以下是實驗的實驗結果:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 2:DPO, TDPO,SimPO 演算法效能比較

了解更多結果,請參考原論文。

以上是從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器