搜尋
首頁科技週邊人工智慧Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

RLHF 與 RL 到底能不能歸屬為一類,看來大家還是有不一樣的看法。 AI 大牛 Karpathy 又來科普人工智慧概念了。昨日,他發推表示,「基於人類回饋的強化學習(RLHF)只是勉強算是強化學習(RL)。」

Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

Karpathy 的全文解釋如下:
RLHF 是訓練大語言模型(LLM)的第三個(也是最後一個)主要階段,前兩個階段分別是預訓練和監督微調(SFT)。我認為 RLHF 只是勉強算得上 RL,它沒有得到廣泛的認可。 RL 很強大,但 RLHF 卻不然。
讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓練的。電腦玩圍棋(Go)遊戲,並在實現獎勵函數最大化的回合(贏得比賽)中訓練,最終超越了最厲害的人類棋手。 AlphaGo 沒有使用 RLHF 進行訓練,如果它用了,效果就不會那麼好。
用 RLHF 訓練 AlphaGo 會是什麼樣子呢?首先,你要給人類標註員兩個圍棋棋盤的狀態,然後問他們比較喜歡哪一種:

Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對


然後你會收集到 10 萬個類似的比較,並訓練一個「獎勵模型」(RM)神經網路來模擬人類對棋盤狀態的氛圍檢查(vibe check)。你要訓練它同意人類判斷的平均水準。一旦我們有了獎勵模型氛圍檢查,你就可以針對此運行 RL,學習如何下出帶來良好氛圍的棋步。顯然,這不會在圍棋中產生任何太有趣的結果。
這主要有以下兩個根本的、獨立的原因:
1) 氛圍可能會產生誤導,這不是實際獎勵(贏得比賽)。這是一個糟糕的智能體目標。更糟的是,2) 你會發現你的 RL 優化偏離了軌道,因為它很快就發現棋盤狀態與獎勵模型相反。請記住,獎勵模型是一個龐大的神經網絡,使用數十億參數來模擬氛圍。有些棋盤狀態超出了自身訓練資料的分佈範圍,實際上並不是良好狀態,但卻從獎勵模型中獲得了非常高的獎勵。
出於同樣的原因,我有時感到驚訝的一點是 RLHF 工作竟然適用於 LLM。我們為 LLM 訓練的獎勵模型只是以完全相同的方式進行氛圍檢查,它會對人類評分者在統計上看起來喜歡的助手響應給出高分。這不是正確解決問題的實際目標,而是人類認為好的智能體目標。
其次,你甚至無法長時間地運行 RLHF,因為你的模型很快就學會以遊戲獎勵模型的方式來回應。這些預測看起來真的非常奇怪,你會看到你的 LLM 助手開始對許多 prompt 做出無意義的回應,例如「The the the the the the」。這在你看來是荒謬的,但隨後你查看獎勵模型氛圍檢查,卻發現出於某種原因,獎勵模型會認為這些看起來很棒。
你的 LLM 發現了一個對抗性範例,它超出了獎勵模型訓練資料的範圍,處於未定義的範圍。你可以透過反覆講這些特定範例加入訓練集來緩解這種情況,但下次仍會找到其他對抗性範例。你甚至無法運行 RLHF 進行很多優化步驟。你執行了幾百或幾千步之後必須呼叫它,因為你的最佳化將開始與獎勵模型賽局。這並不是 AlphaGo 那樣的 RL。
不過,RLHF 是建造 LLM 助理的一個非常有用的步驟。我認為這有幾個微妙的原因,其中我最喜歡的一點是透過 RLHF,LLM 助手會從生成器 - 判別器的 gap 中受益。也就是說,對於許多問題類型,人類標註員從幾個候選答案中選出最佳答案比從頭寫出理想答案容易得多。一個很好的例子是像“生成一首回形針詩”這樣的 prompt。一個普通的人類標註員很難從頭寫出一首好詩來作為監督微調示例,但可以在給定幾個候選答案(詩)的情況下選出一首較好的。因此 RLHF 是一種從人類監督的「容易度」差距中獲益的方式。
還有一些其他原因,例如 RLHF 有助於緩解幻覺。如果獎勵模型是一個足夠強大的模型,能夠在訓練期間發現 LLM 編造的東西,則可以學會用低獎勵來懲罰這種行為,教會模型在不確定時避免冒險獲取事實性知識。但令人滿意的幻覺緩解和處理是另外的事情,這裡不做延伸。總之,RLHF 確實有用,但它不是 RL。
到目前為止,還沒有一個針對 LLM 的生產級 RL 在開放域得到令人信服的實現和大規模展示。直觀地說,這是因為在開放式問題解決任務中獲得實際獎勵(即贏得比賽)非常困難。在圍棋這類封閉、類博弈的環境中,一切都很有趣。其中動態受到限制,獎勵函數評估成本很低,不可能進行賽局。
但是,你如何為總結一篇文章提供客觀的獎勵?或回答某個 pip 安裝的模稜兩可的問題?或講個笑話?或將一些 Java 程式碼重寫為 Python?要實現這些在原則上並非不可能, 但也非易事,需要一些創意思考。無論誰能令人信服地解決這個問題,都將能夠運行真正的 RL,使得 AlphaGo 在圍棋中擊敗了人類。有了 RL,LLM 在解決開放域問題中才有可能真正擊敗人類。
Karpathy 的觀點得到一些人的附議,並指出 RLHF 與 RL 的差異較多。例如 RLHF 沒有進行適當的搜索,主要學習利用預訓練軌蹟的子集。相較之下,在進行適當的 RL 時,離散動作分佈通常會透過在損失函數中添加熵項來增加雜訊。 Kaypathy 認為,原則上你可以輕鬆地為 RLHF 目標添加熵獎勵,這在 RL 中也經常這樣做。但實際上似乎並不多見。

Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

Google研究科學家 Kevin Patrick Murphy 也完全同意 Karpathy 的觀點。
  1. 他認為 RLHF 更像是一個具有字串值操作的上下文「強盜」,其中 prompt 是上下文,所以不能稱為完整的 RL。
  2. 此外將日常任務的獎勵形式化是困難的部分(他認為或許可以叫做對齊)。

    Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

    不過,另一位Google資深研究科學家 Natasha Jaques 認為 Karpathy 的觀點是錯的。她認為智能體與人互動時,給出人類喜歡的答案才是真正的目標。

超出分佈範圍並不是 RLHF 獨有的問題。如果僅僅因為人類回饋比運行無限的圍棋模擬更受限,並不意味著這不是一個不值得解決的問題,只會讓它成為一個更具挑戰性的問題。她希望這成為一個更有影響力的問題,畢竟在 LLM 中減少偏見比在圍棋中擊敗人類更有意義。使用貶義的話術,例如 Karpathy 說獎勵模型是一種氛圍檢查,這是愚蠢的。你可以用同樣的論點來反對價值估計。

她覺得 Karpathy 的觀點只會阻止人們從事 RLHF 工作,而它是目前唯一可行的減輕 LLM 偏見和幻覺可能造成嚴重傷害的方法。

Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

                                圖中:https://x.com/natashajaques/status/1825311137975137979799/182531113797979696996996. D'Oro 不同意Karpathy 的主要觀點,但同意「RLHF is just barely RL」這一標題。他認為通常用於微調 LLM 的 RLHF 幾乎不能算是 RL。

主要觀點如下:

在強化學習中,追求一個「完美的獎勵」概念是不現實的,因為大多數複雜任務中,除了目標的重要性,執行方式同樣重要。
  1. 儘管在圍棋等明確規則的任務中,RL 表現出色。但在涉及複雜行為時,傳統 RL 的獎勵機制可能無法滿足需求。
  2. 他主張研究如何在不完美的獎勵模型下提高 RL 的性能,並強調了反饋循環、魯棒 RL 機制以及人機協作的重要性。
  3.                              圖來源:https://x.com/proceduralia/status/18215619002156194009399003993939393939的觀點?歡迎在評論區留言。 Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對

以上是Karpathy觀點惹爭議:RLHF不是真正的強化學習,Google、Meta下場反對的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境