집 >기술 주변기기 >일체 포함 >ICML 2024 Oral | Tsinghua Wuyi 팀의 최신 계시는 DPO가 LLM에 더 적합합니까?

ICML 2024 Oral | Tsinghua Wuyi 팀의 최신 계시는 DPO가 LLM에 더 적합합니까?

王林원래의: 2024-07-22 18:41:23435검색

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

吳翼，清華大學對齊資訊院助理影響，曾任OpenAI 全職學習師，大研究領域為人機交互，機器人學習等。 2019 年在美國加州大學柏克萊分校取得博士學位，師從 Stuart Russell 教授；2014 年大學部畢業於清華大學交叉資訊院（姚班）。其代表作包括：NIPS2016 最佳論文，Value Iteration Network；多智能體深度強化學習領域最高引用論文，MADDPG 演算法；OpenAI hide-and-seek 專案等。

如何讓大模型更好的遵從人類指令和意圖？如何讓大模型有更好的推理能力？如何讓大模型避免幻覺？能否解決這些問題，是讓大模型真正廣泛可用，甚至實現超級智慧（Super Intelligence）最為關鍵的技術挑戰。這些最困難的挑戰也是吳翼團隊長期以來的研究重點，大模型對齊技術（Alignment）所要攻克的難題。

對齊技術中，最重要的演算法框架就是根據人類回饋的強化學習（RLHF, Reinforcement Learning from Human Feedback）。 RLHF 根據人類對大模型輸出的偏好回饋，來學習基於人類回饋的獎勵函數（Reward Model），並進一步對大模型進行強化學習訓練，讓大模型在反覆迭代中學會辨別回覆的好壞，並實現模型能力提升。目前世界上最強的語言模型，例如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型，都極為強調 RLHF 訓練的重要性。 OpenAI 和 Anthropic 內部也都開發了基於大規模 PPO 演算法的 RLHF 訓練系統進行大模型對齊。

然而，由於PPO 演算法流程複雜，算力消耗大，美國AI 公司的大規模RLHF 訓練系統也從不開源，所以儘管PPO 演算法非常強大，學術界的對齊工作卻一直很少採用複雜的PPO 演算法進行RLHF 研究，轉而普遍使用SFT（監督微調）或DPO（Direct Policy Optimization）等更簡化、更直接、對訓練系統要求更低的對齊演算法。

那麼，簡單的對齊演算法一定效果更好嗎？吳翼團隊發表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔細探討了 DPO 與 PPO 演算法的特點，並指出提升 RLHF 演算法效果的關鍵點。在該工作中，吳翼團隊基於自研的大規模RLHF 訓練系統，首次採用PPO 演算法及參數量更少的開源模型，在公認最困難的挑戰—— 程式碼生成任務CodeContest—— 上超過閉源大模型AlphaCode 41B。