首頁 >科技週邊 >人工智慧 >谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

PHPz
PHPz轉載
2024-02-15 19:00:191315瀏覽

效果更穩定,實作更簡單。

大型語言模型(LLM)的成功離不開「基於人類回饋的強化學習(RLHF)」。 RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,透過分類目標為前者分配更高的分數。然後透過某種強化學習演算法優化這個獎勵函數。然而,獎勵模型的關鍵要素可能會產生一些不良影響。

來自卡內基美隆大學(CMU)和Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的RLHF 新方法- 自我博弈偏好最佳化(Self-Play Preference Optimization,SPO)。此方法消除了獎勵模型,並且不需要對抗性訓練。

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

論文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
論文地址:https://arxiv.org/abs/2401.04056

方法簡介

#SPO 方法主要包含兩個面向。首先,該研究透過將 RLHF 建構為兩者零和博弈(zero-sum game),真正消除了獎勵模型,從而更有能力處理實踐中經常出現的噪音、非馬可夫偏好。其次,透過利用博弈的對稱性,研究證明可以簡單地以自我博弈的方式訓練單一智能體,從而消除了不穩定對抗訓練的需要。

實際上,這相當於從智能體中取樣多個軌跡,要求評估者或偏好模型比較每對軌跡,並將獎勵設定為軌跡的獲勝率。
谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練
SPO 避免了獎勵建模、複合 error 和對抗性訓練。透過從社會選擇理論(social choice theory)中建立最小最大獲勝者的概念,該研究將RLHF 構建為兩者零和博弈,並利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

該研究也分析了SPO 的收斂特性,並證明在潛在獎勵函數確實存在的情況下,SPO 能以與標準方法相媲美的快速速度收斂到最優策略。

實驗

#該研究在一系列具有現實偏好函數的連續控制任務上,證明了SPO 比基於獎勵模型的方法表現更好。 SPO 在各種偏好設定中能夠比基於獎勵模型的方法更有效地學習樣本,如下圖 2 所示。

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

#該研究從多個維度將SPO 與迭代獎勵建模(RM) 方法進行比較,旨在回答4 個問題:

  1. 當面intransitive 偏好時,SPO 能否計算MW?
  2. 在具有獨特 Copeland Winners / 最優策略的問題上,SPO 能否匹配或超過 RM 樣本效率?
  3. SPO 對隨機偏好的穩健性如何?
  4. SPO 可以處理非馬可夫偏好嗎?

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

在最大獎勵偏好、噪音偏好、非馬可夫偏好方面,研究的實驗結果分別如下圖6、7、8 所示:

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

#

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

有興趣的讀者可以閱讀論文原文,了解更多研究內容。

以上是谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除