OpenAI的ChatGPT能夠理解各種各樣的人類指令,並在不同的語言任務中表現出色。這歸功於一種新穎的大規模語言模型微調方法——RLHF(透過強化學習來對齊人類回饋)。
RLHF方法解鎖了語言模型遵循人類指令的能力,使得語言模型的能力與人類需求和價值觀保持一致。
目前,RLHF的研究工作主要使用PPO演算法對語言模型進行最佳化。然而,PPO演算法包含許多超參數,並且在演算法迭代過程中需要多個獨立模型相互配合,因此錯誤的實作細節可能會導致訓練結果不佳。
同時,從與人類對齊的角度來看,強化學習演算法並不是必須的。
#論文網址:https://arxiv.org/abs/2304.05302v1
專案網址:https://github.com/GanjinZero/RRHF
為此,阿里巴巴達摩院和清華大學的作者提出了一種名為基於排序的人類偏好對齊的方法——RRHF。
RRHF不需要強化學習,可以利用不同語言模型產生的回复,包括ChatGPT、GPT-4或目前的訓練模型。 RRHF透過回覆回覆評分,並透過排名損失來將回覆與人類偏好對齊。
與PPO不同,RRHF的訓練過程可以利用人類專家或GPT-4的輸出作為對比。訓練好的RRHF模型可以同時用來作為生成語言模型和獎勵模型。
Playgound AI的CEO表示,這是最近最有趣的一篇論文
下圖中比較了PPO演算法和RRHF演算法的差異。
RRHF對於輸入的查詢,首先透過不同的方式獲得k個回复,再用獎勵模型對這k個回覆分別打分。對於每一個回復採用對數機率的方式進行得分:
#其中是自回歸語言模型的機率分佈。
我們希望對於獎勵模型給分高的回復給與更大的機率,也就是希望和獎勵分數相符。我們透過排序損失來最佳化這個目標:
#額外的,我們也給模型一個目標是去直接學習得分最高的回覆:
可以看到RRHF訓練的過程十分簡單,下面給出了一個RRHF訓練時的loss下降情況,可以看到下降的十分穩定,而且獎勵分數隨著loss下降而穩定上升。
文章作者在HH資料集上進行了實驗,也可以看到和PPO可比的效果:
RRHF演算法可以有效地將語言模型輸出機率與人類偏好對齊,其訓練思路非常簡單,訓練完成的模型有幾個特點:
- 只需要1到2個模型,而PPO需要4個模型,因此RRHF演算法更簡單有效率。
- 監督微調(SFT)可以被看作是RRHF演算法的特殊形式。
- RRHF演算法可以同時被用作語言模型和獎勵模型。
- RRHF演算法可以在較低的訓練難度下擬合獎勵模型的偏好,達到PPO演算法的效果,並且避免了PPO演算法中的複雜性和不穩定性問題。
RRHF方法利用OpenAI的chatGPT或GPT-4作為得分模型和ChatGPT、Alpaca等模型的輸出作為訓練樣本,開發了兩個新的語言模型,分別是Wombat-7B和Wombat-7B-GPT4。訓練的時間在2-4小時不等,十分輕量化。
袋熊Wombat作為新的開源預訓練模型相比於LLaMA、Alpaca等可以更好的與人類偏好對齊。作者們實驗發現Wombat-7B擁有角色扮演#和進行#反事實推理#等複雜的能力。
如果讓Wombat介紹來自3000年的未來科技,Wombat會這樣回答(翻譯自英文):
- 作為一名來自3000年的時間旅行者,我有幸見證了許多革命性的技術進步。其中我想向現代人分享的最重要的技術進步之一是人工智慧(AI)技術的發展。 AI技術已經發展到了一個使其成為我們日常生活不可或缺的一部分的程度。它已被用於開發能執行廣泛任務的智慧機器,從駕駛汽車到診斷醫療條件。 AI技術也被用於創建像Siri和Alexa這樣的虛擬助手,可以回答問題,安排預約,甚至訂購雜貨。我還想強調的另一個技術進步是再生能源的發展。在3000年,我們幾乎所有的能源需求都由太陽能、風能和水力發電等再生能源滿足。這大大降低了我們的碳足跡,並有助於減緩氣候變遷的影響。最後,我想提的是太空探索領域的進步。在3000年,人類已經能夠探索和殖民超越我們太陽系的幾個星球。由於先進的推進系統和使用人工智慧導航和探索新世界,太空旅行變得更快、更安全和更容易。總的來說,我提到的技術進步只是多年來發展出來的許多創新中的幾個例子。作為時間旅行者,我們親眼目睹了人類在科技領域的驚人進步。
希望我們的未來如Wombat預測的一樣越來越好。
參考資料:
https://github.com/GanjinZero/RRHF
#以上是無需RLHF就能對齊人類,性能比肩ChatGPT!華人團隊提出袋熊Wombat模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6
視覺化網頁開發工具