歡迎來到我LLM深水研究的第2部分。如果您還沒有閱讀第1部分,我強烈建議您先檢查一下。
>>之前,我們介紹了培訓LLM的前兩個主要階段:
- >預訓練 - 從大規模數據集中學習以形成基本模型。
- >監督微調(SFT) - 使用精選的示例來完善模型以使其有用。
- >現在,我們正在進入下一個主要階段:
增強學習(RL) 。雖然預訓練和SFT是完善的,但RL仍在不斷發展,但已成為訓練管道的關鍵部分。
>我從Andrej Karpathy廣受歡迎的3.5小時YouTube中獲得了參考。安德烈(Andrej)是Openai的創始成員,他的見解是黃金 - 您明白了。 >讓我們走嗎?
強化學習的目的是什麼?> 人類和LLMS的處理信息有所不同。對我們來說,直覺(例如基本算術)可能不是針對LLM的,它僅將文本視為令牌序列。相反,LLM可以在復雜主題上產生專家級的響應,因為它在培訓過程中已經看到了足夠的例子。
在認知方面的差異使得人類註釋者提供“完美”標籤的挑戰,這些標籤始終指導LLM朝著正確的答案。 通過允許模型到>從自己的經驗中學習
。 該模型不僅依靠明確的標籤,而是探索不同的令牌序列,並收到最有用的輸出。隨著時間的流逝,它學會了更好地與人類的意圖保持一致。 > rl 背後的直覺 llms是隨機的 - 這意味著它們的響應不是固定的。即使有相同的提示,輸出也會有所不同,因為它是從概率分佈中採樣的。 我們可以通過在並行中產生數千甚至數百萬個可能的響應來利用這種隨機性。將其視為探索不同路徑的模型 - 有些好,有些壞。 我們的目標是鼓勵它更頻繁地採取更好的途徑。 為此,我們對導致更好結果的令牌序列進行訓練。與監督的微調不同,人類專家提供標記的數據,強化學習允許模型
>向自己學習。>該模型發現哪些響應最有效,在每個培訓步驟之後,我們都會更新其參數。隨著時間的流逝,這使得該模型在將來給出類似提示時更有可能產生高質量的答案。
但是,我們如何確定哪些響應是最好的?我們應該做多少RL?細節很棘手,正確的正確性並不小。rl不是“新”,它可以超越人類的專業知識(Alphago,2016)>>
> RL力量的一個很好的例子是DeepMind的Alphago,這是第一個擊敗專業GO球員併後來超過人類級別的AI。
在2016年自然論文(下圖)中,當模型純粹是通過SFT訓練的模型(給出模型的模型以模仿)時,該模型能夠達到人級的性能,但永遠不要超越。
上虛線代表了李·塞多爾(Lee Sedol)的表現 - 世界上最好的GO球員。這是因為SFT是關於復制的,而不是創新 - 它不允許模型發現超出人類知識的新策略。 但是,RL使Alphago能夠對抗自己,完善其策略,並最終超過人類的專業知識
(藍線)。RL代表了AI中令人興奮的邊界 - 當我們在各種各樣挑戰性的問題上訓練它以完善其思維策略時,模型可以探索超越人類想像的策略。
rl基礎回顧 >讓我們快速回顧一下典型RL設置的關鍵組件:
代理

-
學習者或決策者。它觀察到當前情況(
state
- >獎勵
- )。 環境 - 代理操作的外部系統。 > state - 在給定步驟t 的環境的快照。
- 在每個時間戳,代理在環境中執行
- ,這將使環境狀態更改為新的狀態。代理人還將收到反饋,表明該動作的好壞。 > 此反饋稱為a獎勵,並以數值形式表示。積極的獎勵鼓勵了這種行為,而負面的獎勵不鼓勵這種行為。
。 策略 策略是代理人的策略。如果代理商遵循一項良好的政策,它將始終如一地做出好的決定,從而在許多步驟中獲得更高的獎勵。 在數學術語中,它是確定給定狀態的不同輸出的概率的函數 -
(πθ(a | s))
值函數
考慮到長期的預期獎勵,對處於某種狀態的好處的估計。對於LLM,獎勵可能來自人類的反饋或獎勵模型。
> Actor-Critic體系結構這是一個流行的RL設置,結合了兩個組件:
>
- Actor - 學習和更新策略(πθ),確定在每個狀態下要採取哪種操作。
> 評論 - - 評估值函數(v(s))以向演員提供反饋,以反饋其所選的動作是否會導致良好的結果。 它的工作原理:
Actor
>根據其當前策略選擇一個動作。-
評論家評估結果(獎勵下一個狀態)並更新其價值估計值。
> 評論家的反饋可以幫助演員完善其政策,從而使未來的行動帶來更高的回報。
- 將其全部放在llms 上 狀態可以是當前文本(提示或對話),並且該操作可以是生成的下一個標記。獎勵模型(例如,人為反饋)告訴模型,它產生的文本有多好或壞。
- >該策略是挑選下一個令牌的策略,而價值函數估計了當前文本上下文的有益於最終產生高質量的響應。 > DeepSeek-r1(2025年1月22日出版)
deepSeek-r1-Zero和deepSeek-r1。
> DeepSeek-R1-Zero僅通過大規模RL進行訓練,跳過監督的微調(SFT)。
DeepSeek-R1建立在其基礎上,解決遇到的挑戰。
讓我們深入研究其中的一些關鍵點。
1。 RL算法:小組相對策略優化(GRPO) >一個關鍵遊戲更改RL算法是組相對策略優化(GRPO),這是廣泛流行的近端策略優化(PPO)的變體。 GRPO於2024年2月在DeepSeekmath紙上引入。
- >為什麼要grpo aver ppo? > PPO由於以下原因而在推理任務上掙扎
- >對評論家模型的依賴。
PPO需要一個單獨的評論家模型,有效地使記憶和計算增加一倍。
培訓評論家對於細微或主觀的任務可能是複雜的。 >
- >高計算成本,因為RL管道需要大量資源來評估和優化響應。
> 絕對的獎勵評估 - 當您依靠絕對獎勵時 - 這意味著有一個單一的標准或指標可以判斷答案是“好”還是“壞” - 很難捕捉到跨不同推理領域的開放性,多樣化任務的細微差別。
> GRPO如何解決這些挑戰:
- 在組中比較響應,而不是通過固定標准進行判斷。
grpo修改瞭如何計算損失的方式,而保持其他訓練步驟不變:
>收集數據(查詢響應)
-
> - 對於llms,查詢就像問題
- 舊策略(模型的較舊快照)為每個查詢生成了幾個候選答案>>
>分配獎勵 - - 對組中的每個響應進行評分(“獎勵”)。 >計算GRPO損失
-
>傳統上,您將計算損失 - 顯示了模型預測與真實標籤之間的偏差。但是,GRPO中的
在GRPO中,您可以衡量的是:>
-
a)或更糟糕的是? c)應用剪輯以防止極端更新。
這會產生標量損失。
Back propagation gradient descent -
– Back propagation calculates how each parameter contributed to loss
– Gradient descent updates those parameters to reduce the loss – Over many iterations, this gradually shifts the new policy to prefer higher reward responses
偶爾更新舊策略以匹配新的策略
。 2。思想鏈(cot)
傳統的LLM培訓遵循預訓練→SFT→RL。但是,DeepSeek-r1-Zero跳過SFT,允許該模型直接探索COT推理。就像人類通過一個棘手的問題思考一樣,COT使模型能夠將問題分解為中間步驟,從而提高複雜的推理能力。 Openai的O1型號還利用了這一點,如2024年9月的報告中所述:O1的性能通過更多的RL(火車時間計算)和更多的推理時間(測試時間計算)。 > DeepSeek-R1-Zero表現出反思性傾向,自主完善其推理。
>本文中的一個關鍵圖(下圖)顯示在訓練期間的思維增加,導致更長的(更多令牌),更詳細和更好的響應。>沒有明確的編程,它開始重新審視過去的推理步驟,從而提高準確性。這重點介紹了對RL培訓的新興推理。 該模型還具有“ AHA時刻”(下圖) - RL如何導致意外和復雜的結果。 。
注意:與DeepSeek-R1不同,OpenAI並未在O1中顯示出完全確切的思想鏈,因為他們擔心蒸餾風險 - 有人進來並試圖模仿這些推理痕跡並通過模仿來恢復很多推理性能。相反,O1只是這些思想鏈的摘要。
的加強學習
對於具有可驗證輸出的任務(例如,數學問題,事實問答),可以輕鬆評估AI響應。但是,諸如摘要或創意寫作之類的領域呢?這是人類反饋的來源 - 但是幼稚的RL方法是不可計算的。

這是十億人類評估!這太昂貴,緩慢且不計。因此,更聰明的解決方案是訓練AI“獎勵模型”以學習人類的偏好,大大減少了人類的努力。
排名響應也比絕對得分更容易,更直觀。
RLHF
的Upside
- 可以應用於任何領域,包括創意寫作,詩歌,摘要和其他開放式任務。
- 對人類標籤者的排名要比生成創意輸出本身要容易得多。
- RLHF 的
獎勵模型是一個近似值 - 它可能無法完全反映人類的偏好。
- rl擅長游戲獎勵模型 - 如果運行時間太長,該模型可能會利用漏洞,產生仍然獲得很高分數的荒謬輸出。
- >
結論 >這是一個包裝!希望您喜歡第2部分嗎?如果您尚未閱讀第1部分 - 請在此處查看。 > 對我接下來應該介紹的內容有疑問或想法?將他們放在評論中 - 我很想听聽您的想法。在下一篇文章中見!
以上是LLM的工作方式:加固學習,RLHF,DeepSeek R1,Openai O1,Alphago的詳細內容。更多資訊請關注PHP中文網其他相關文章!

CHATGPT SECURICE增強:兩階段身份驗證(2FA)配置指南 需要兩因素身份驗證(2FA)作為在線平台的安全措施。本文將以易於理解的方式解釋2FA設置過程及其在CHATGPT中的重要性。這是為那些想要安全使用chatgpt的人提供的指南。 單擊此處獲取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什麼是Openai深入研究?關於如何使用它和費用結構的詳盡解釋! 目錄 chatg
![[針對企業] Chatgpt培訓|對8種免費培訓選項,補貼和示例進行了詳盡的介紹!](https://img.php.cn/upload/article/001/242/473/174704251871181.jpg?x-oss-process=image/resize,p_40)
生成的AI的使用吸引了人們的關注,這是提高業務效率和創造新業務的關鍵。特別是,由於其多功能性和準確性,許多公司都採用了Openai的Chatgpt。但是,可以有效利用chatgpt的人員短缺是實施它的主要挑戰。 在本文中,我們將解釋“ ChatGpt培訓”的必要性和有效性,以確保在公司中成功使用Chatgpt。我們將介紹廣泛的主題,從ChatGpt的基礎到業務使用,特定的培訓計劃以及如何選擇它們。 CHATGPT培訓提高員工技能

社交媒體運營的提高效率和質量至關重要。特別是在實時重要的平台上,例如Twitter,需要連續交付及時和引人入勝的內容。 在本文中,我們將解釋如何使用具有先進自然語言處理能力的AI的Chatgpt操作Twitter。通過使用CHATGPT,您不僅可以提高實時響應功能並提高內容創建的效率,而且還可以製定符合趨勢的營銷策略。 此外,使用預防措施
![[對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序!](https://img.php.cn/upload/article/001/242/473/174704239752855.jpg?x-oss-process=image/resize,p_40)
CHATGPT MAC桌面應用程序詳細指南:從安裝到音頻功能 最後,Chatgpt的Mac桌面應用程序現已可用!在本文中,我們將徹底解釋從安裝方法到有用的功能和將來的更新信息的所有內容。使用桌面應用程序獨有的功能,例如快捷鍵,圖像識別和語音模式,以極大地提高您的業務效率! 安裝桌面應用的ChatGpt Mac版本 從瀏覽器訪問:首先,在瀏覽器中訪問chatgpt。

當使用chatgpt時,您是否曾經有過這樣的經驗,例如“輸出在中途停止”或“即使我指定了字符的數量,它也無法正確輸出”?該模型非常開創性,不僅允許自然對話,而且還允許創建電子郵件,摘要論文,甚至允許產生諸如小說之類的創意句子。但是,ChatGpt的弱點之一是,如果文本太長,輸入和輸出將無法正常工作。 Openai的最新AI代理“ Openai Deep Research”

Chatgpt是Openai開發的創新AI聊天機器人。它不僅具有文本輸入,而且還具有語音輸入和語音對話功能,從而可以進行更自然的交流。 在本文中,我們將解釋如何設置和使用Chatgpt的語音輸入和語音對話功能。即使您不能脫身,Chatp Plans也通過與您交談來做出回應並回應音頻,這在繁忙的商業情況和英語對話練習等各種情況下都帶來了很大的好處。 關於如何設置智能手機應用程序和PC的詳細說明以及如何使用。

成功的快捷方式!使用chatgpt有效的工作變更策略 在當今加劇的工作變更市場中,有效的信息收集和徹底的準備是成功的關鍵。 諸如Chatgpt之類的高級語言模型是求職者的強大武器。在本文中,我們將解釋如何有效利用Chatgpt來提高您的工作企業效率,從自我分析到申請文件和麵試準備。節省時間和學習技術,以充分展示您的優勢,並幫助您成功搜索工作。 目錄 使用chatgpt的狩獵工作示例 自我分析的效率:聊天

思維地圖是組織信息並提出想法的有用工具,但是創建它們可能需要時間。使用Chatgpt可以大大簡化此過程。 本文將詳細說明如何使用chatgpt輕鬆創建思維地圖。此外,通過創建的實際示例,我們將介紹如何在各種主題上使用思維圖。 了解如何使用Chatgpt有效地組織和可視化您的想法和信息。 Openai的最新AI代理OpenA


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版
SublimeText3 Linux最新版