24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

王林

May 28, 2023 pm 10:40 PM

ai模型

2 月底，Meta 開源了一個大模型系列 LLaMA（直譯為羊駝），參數量從 70 億到 650 億不等，被稱為 Meta 版 ChatGPT 的雛形。之後史丹佛大學、加州大學柏克萊分校等機構紛紛在 LLaMA 的基礎上進行「二創」，陸續推出了 Alpaca、Vicuna 等多個開源大模型，一時間「羊駝」成為 AI 圈頂流。開源社群建立的這些類別 ChatGPT 模型迭代速度非常快，且可自訂性很強，被稱為 ChatGPT 的開源平替。

然而，ChatGPT 之所以能在文本理解、生成、推理等方面展現出強大的能力，是因為OpenAI 為ChatGPT 等大模型使用了新的訓練範式——RLHF (Reinforcement Learning from Human Feedback) ，即以強化學習的方式依據人類回饋優化語言模型。使用 RLHF 方法，大型語言模型可與人類偏好保持對齊，遵循人類意圖，並最小化無益、失真或偏見的輸出。但 RLHF 方法依賴大量的人工標註和評估，通常需要數週時間、花費數千美元收集人類回饋，成本高昂。

現在，推出開源模型 Alpaca 的史丹佛大學又提出了一個模擬器 ——AlpacaFarm（直譯為羊駝農場）。 AlpacaFarm 能在 24 小時內僅用約 200 美元複製 RLHF 過程，讓開源模型迅速改善人體評估結果，堪稱 RLHF 的平替。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

#AlpacaFarm 試圖快速、低成本地開發從人類回饋中學習的方法。為了做到這一點，史丹佛的研究團隊首先確定了研究 RLHF 方法的三個主要困難：人類偏好數據的高成本、缺乏可信賴的評估、缺乏參考實現。

為了解決這三個問題，AlpacaFarm 建立了模擬註釋器、自動評估和 SOTA 方法的具體實作。目前，AlpacaFarm 專案代碼已開源。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

#GitHub 位址：https://github.com/tatsu-lab/alpaca_farm
論文網址：https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下圖所示，研究人員可以使用AlpacaFarm 模擬器快速開發從人類回饋資料中學習的新方法，也能將已有SOTA 方法遷移到實際的人類偏好數據上。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

模擬註解器

AlpacaFarm 基於Alpaca 資料集的52k 指令構建，其中10k 指令用於微調基本的指令遵循模型，剩餘的42k 指令用於學習人類偏好和評估，並且大部分用於從模擬註釋器中學習。研究針對 RLHF 方法的註釋成本、評估和驗證實現三大挑戰，逐一提出解決方法。

首先，為了減少註釋成本，該研究為可訪問API 的LLM（如GPT-4、ChatGPT）創建了prompt，使得AlpacaFarm 能夠模擬人類反饋，成本僅為RLHF方法收集資料的1/45。研究設計了一種隨機的、有雜訊的註釋方案，使用 13 種不同的 prompt，從多個 LLM 中提取出不同的人類偏好。這種註釋方案旨在捕捉人類回饋的不同方面，例如品質判斷、註釋者之間的變化性和風格偏好。

該研究透過實驗顯示 AlpacaFarm 的模擬是準確的。當研究團隊使用 AlpacaFarm 訓練和開發方法時，這些方法與使用實際人類回饋訓練和開發的相同方法排名非常一致。下圖顯示了由 AlpacaFarm 模擬工作流程和人類回饋工作流程產生的方法在排名上的高度相關性。這項特性至關重要，因為它說明從模擬中得出的實驗結論在實際情況下也有可能成立。

除了方法層面的相關性，AlpacaFarm 模擬器還可以複製獎勵模型過度優化等定性現象，但以此針對代理獎勵（surrogate reward）的持續RLHF 訓練可能會損害模型性能。下圖是在人類回饋 (左) 和 AlpacaFarm (右) 兩種情況下的該現象，我們可以發現 AlpacaFarm 最初捕捉了模型性能提升的正確定性行為，然後隨著 RLHF 訓練的持續，模型性能下降。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

評估

在評估方面，研究團隊使用與Alpaca 7B的即時使用者互動作為指導，並透過結合幾個現有公共資料集來模擬指令分佈，包括self-instruct 資料集、anthropic helpfulness 資料集和Open Assistant、Koala 和Vicuna 的評估集。使用這些評估指令，該研究比較了 RLHF 模型與 Davinci003 模型的響應（response）情況，並使用一個分數度量 RLHF 模型響應更優的次數，並將這個分數稱為勝率（win-rate）。如下圖所示，在該研究的評估數據上進行的系統排名量化評估顯示：系統排名和即時使用者指令是高度相關的。此結果說明，聚合現有的公開資料能實現與簡單真實指令相近的效能。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

##對於第三個挑戰－缺少參考實現，研究團隊實現並測試了幾種流行的學習演算法(如PPO、專家迭代、best-of-n 採樣)。研究團隊發現在其他領域有效的更簡單方法並不比該研究最初的 SFT 模型更好，這表明在真實的指令遵循環境中測試這些演算法是非常重要的。

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

#根據人工評估，PPO 演算法被證明是最有效的，它將模型與Davinci003 相比的勝率從44% 提高到55%，甚至超過了ChatGPT。

這些結果表明，PPO 演算法在為模型最佳化勝率方面是非常有效的。需要注意的是，這些結果是特定於該研究的評估數據和註釋者得出的。雖然研究的評估指令代表了即時使用者指令，但它們可能無法涵蓋更具有挑戰性的問題，並且並不能確定有多少勝率的改進來自於利用風格偏好，而不是事實性或正確性。例如，研究發現PPO 模型產生的輸出要長得多，通常會為答案提供更詳細的解釋，如下圖所示：

24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」

總的來說，使用AlpacaFarm 在模擬偏好上訓練模型能夠大幅改善模型的人類評估結果，而不需要讓模型在人類偏好上重新訓練。雖然這種遷移過程比較脆弱，在效果上仍略遜於在人類偏好資料上重新訓練模型。但能在24 小時內，僅用200 美元就複製出RLHF 的pipeline，讓模型迅速提升人類評估性能，AlpacaFarm 這個模擬器還是太香了，是開源社區為複刻ChatGPT 等模型的強大功能做出的又一努力。

以上是24小時內、200美元複製RLHF過程，史丹佛開源「羊駝農場」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲：與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室，由暴風雪和黑曜石等行業巨頭的退伍軍人組成，有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店，提供商會讓他們嗎？May 02, 2025 am 11:16 AM

Uber的Robotaxi策略：自動駕駛汽車的騎車生態系統在最近的Curbivore會議上，Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。利用他們在

AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明，視頻遊戲是最先進的AI研究的寶貴測試理由，尤其是在自主代理商和現實世界機器人的開發中，甚至有可能促進人工通用情報（AGI）的追求。一個

創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體，財務報告和日常對話中顯而易見。但是，對投資者，初創企業和資金的具體後果經常被忽略。風險資本3.0：範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新，反映了向可訪問性和生成AI的戰略轉變。該分析結合了事件前簡報中的見解，並融合了Adobe Leadership。（注意：Adob

Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略，旨在直接與OpenAI等封閉的AI系統競爭，同時為其開源模型創建了新的收入流。這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱，是時候揭露“皇帝的新衣”了，而另一些人則強烈反對人工智能僅僅是普通技術的觀點。讓我們來探討一下。對這一創新性人工智能突破的分析，是我持續撰寫的福布斯專欄文章的一部分，該專欄涵蓋人工智能領域的最新進展，包括識別和解釋各種有影響力的人工智能複雜性（請點擊此處查看鏈接）。人工智能作為普通技術首先，需要一些基本知識來為這場重要的討論奠定基礎。目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能（AGI）甚至可能實現人工超級智能（AS