谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

PHPz

Feb 15, 2024 pm 07:00 PM

rlhf工程卡內基美隆大學spo

效果更穩定，實作更簡單。

大型語言模型（LLM）的成功離不開「基於人類回饋的強化學習（RLHF）」。 RLHF 可以大致可以分為兩個階段，首先，給定一對偏好和不偏好的行為，訓練一個獎勵模型，透過分類目標為前者分配更高的分數。然後透過某種強化學習演算法優化這個獎勵函數。然而，獎勵模型的關鍵要素可能會產生一些不良影響。

來自卡內基美隆大學（CMU）和Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的RLHF 新方法－自我博弈偏好最佳化（Self-Play Preference Optimization，SPO）。此方法消除了獎勵模型，並且不需要對抗性訓練。

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

論文：A Minimaximalist Approach to Reinforcement Learning from Human Feedback

論文地址：https://arxiv.org/abs/2401.04056

方法簡介

#SPO 方法主要包含兩個面向。首先，該研究透過將 RLHF 建構為兩者零和博弈（zero-sum game），真正消除了獎勵模型，從而更有能力處理實踐中經常出現的噪音、非馬可夫偏好。其次，透過利用博弈的對稱性，研究證明可以簡單地以自我博弈的方式訓練單一智能體，從而消除了不穩定對抗訓練的需要。

實際上，這相當於從智能體中取樣多個軌跡，要求評估者或偏好模型比較每對軌跡，並將獎勵設定為軌跡的獲勝率。

SPO 避免了獎勵建模、複合 error 和對抗性訓練。透過從社會選擇理論（social choice theory）中建立最小最大獲勝者的概念，該研究將RLHF 構建為兩者零和博弈，並利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

該研究也分析了SPO 的收斂特性，並證明在潛在獎勵函數確實存在的情況下，SPO 能以與標準方法相媲美的快速速度收斂到最優策略。

實驗

#該研究在一系列具有現實偏好函數的連續控制任務上，證明了SPO 比基於獎勵模型的方法表現更好。 SPO 在各種偏好設定中能夠比基於獎勵模型的方法更有效地學習樣本，如下圖 2 所示。

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

#該研究從多個維度將SPO 與迭代獎勵建模(RM) 方法進行比較，旨在回答4 個問題：

當面intransitive 偏好時，SPO 能否計算MW？
在具有獨特 Copeland Winners / 最優策略的問題上，SPO 能否匹配或超過 RM 樣本效率？
SPO 對隨機偏好的穩健性如何？
SPO 可以處理非馬可夫偏好嗎？

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

在最大獎勵偏好、噪音偏好、非馬可夫偏好方面，研究的實驗結果分別如下圖6、7、8 所示：

谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練

有興趣的讀者可以閱讀論文原文，了解更多研究內容。

以上是谷歌提出全新RLHF方法：消除獎勵模型，且無需對抗性訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言