搜尋
首頁科技週邊人工智慧UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

合成資料已經成為了大語言模型演化之路上最重要的一塊基石了。

去年底,有網友曝出前OpenAI首席科學家Ilya多次表示LLM的發展沒有資料瓶頸,合成資料可以解決大部分問題。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

英偉達資深科學家Jim Fan在研究了最新一批論文後得出結論,他認為將合成數據與傳統遊戲和影像生成技術結合,可以讓LLM實現巨大的自我進化。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

而正式提出這個方法的論文,是由來自UCLA的華人團隊。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

論文網址:https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

他們使用自我對弈機制(SPIN)產生合成數據,並透過自我微調的方法,不依賴新的數據集,將表現較弱的LLM在Open LLM Leaderboard Benchmark上的平均分數從58.14提升至63.16。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

研究人員提出了一種名為SPIN的自我微調的方法,透過自我對弈的方式-LLM與其前一輪迭代版本進行對抗,從而逐步提升語言模型的效能。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

圖片

這樣就不需要額外的人類標註資料或更高階語言模型的回饋,也能完成模型的自我進化。

主模型和對手模型的參數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為:UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

#自我對弈的訓練方式,總結起來思路大概是這樣:

透過訓練主模型來區分對手模型產生的反應和人類目標反應,對手模型是輪迭代獲得的語言模型,目標是產生盡可能難以區分的響應。

假設第t輪迭代得到的語言模型參數為θt,則在第t 1輪迭代中,使用θt作為對手玩家,針對監督微調資料集中每個prompt x,使用θt產生響應y'。

然後優化新語言模型參數θt 1,使其可以區分y'和監督微調資料集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分佈。

這裡,主模型的損失函數採用對數損失,考慮y和y'的函數值差。

對手模型加入KL散度正規化,防止模型參數偏離太多。

具體的對抗賽局訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的反應分佈等於目標反應分佈時,最佳化過程收斂。

如果使用對弈之後產生的合成資料進行訓練,再使用SPIN進行自我微調,能有效提升LLM的效能。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

圖片

###但之後在初始的微調資料上再次簡單地微調卻又會導致效能下降。 ######

而SPIN只需要初始模型本身和現有的微調資料集,就能讓LLM透過SPIN獲得自我提升。

特別是,SPIN甚至超越了透過DPO使用額外的GPT-4偏好資料訓練的模型。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

而且實驗也表明,迭代訓練比更多epoch的訓練能更有效地提升模型表現。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

延長單次迭代的訓練持續時間不會降低SPIN的效能,但會達到極限。

迭代次數越多,SPIN的效果的就越明顯。

網友在看完這篇論文之後感嘆:

#合成資料將主宰大語言模型的發展,對於大語言模型的研究者來說將會是非常好的消息!

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

自我對弈讓LLM能持續提升

具體來說,研究人員所發展的SPIN系統,是由兩個相互影響的模型相互促進的系統。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導表示的前一次迭代t的LLM,研究人員使用它來產生對人工註解的SFT資料集中的提示x的回應y 。

接下來的目標是找到一個新的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導#,能夠區分UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導生成的反應y和人類生成的響應y'。

這個過程可以看作是一個兩人遊戲:

#主要玩家或新的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導試圖辨別對手玩家的反應和人類生成的反應,而對手或舊的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導產生反應與人工註解的SFT資料集中的資料盡可能相似。

透過對舊的UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導進行微調而獲得的新LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導更喜歡UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導的回應,從而產生與UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導更一致的分佈UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

在下一次迭代中,新獲得的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導成為反應生成的對手,自我對弈過程的目標是LLM最終收斂到UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導,使得最強的LLM不再能夠區分其先前產生的反應版本和人類生成的版本。

如何使用SPIN提升模型效能

#研究人員設計了雙人遊戲,其中主要模型的目標是區分LLM產生的反應和人類生成的回應。同時,對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回覆和人類的回應。

研究人員方法的核心是自我賽局機制,其中主玩家和對手都是相同的LLM,但來自不同的迭代。

更具體地說,對手是上一次迭代中的舊LLM,而主玩家是當前迭代中要學習的新LLM。在迭代t 1時包括以下兩個步驟:(1)訓練主模型,(2)更新對手模型。

訓練主模型

#首先,研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分機率度量(IPM)的啟發,研究人員制定了目標函數:

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

#更新對手模型

對手模型的目標是找到更好的LLM,使其產生的反應與主模型的p資料無異。

實驗

SPIN有效提升基準效能

研究者使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明SPIN的有效性。

在下圖中,研究人員將經過0到3次迭代後透過SPIN微調的模型與基本模型zephyr-7b-sft-full的性能進行了比較。

研究人員可以觀察到,SPIN透過進一步利用SFT資料集,在提高模型效能方面表現出了顯著的效果,而基礎模型已經在該資料集上進行了充分的微調。

在第0次迭代中,模型反應是從zephyr-7b-sft-full產生的,研究人員觀察到平均分數總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中,這項改進尤其顯著,分別提高了超過5%和10%。

在迭代1中,研究人員採用迭代0中的LLM模型來產生SPIN的新回應,並遵循演算法1中概述的流程。

此迭代平均產生1.32%的進一步增強,在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨後的迭代延續了各種任務增量改進的趨勢。同時,迭代t 1時的改進自然更小

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

zephyr-7b-beta是從zephyr-7b- sft-full衍生出來的模型,使用DPO在大約62k個偏好資料上訓練而成。

研究人員注意到,DPO需要手動輸入或高階語言模型回饋來確定偏好,因此資料產生是一個相當昂貴的過程。

相較之下,研究者的SPIN只需要初始模型本身就可以。

此外,與需要新資料來源的DPO不同,研究人員的方法完全利用現有的SFT資料集。

下圖顯示了SPIN在迭代0和1(採用50k SFT資料)與DPO訓練的表現比較。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

研究人員可以觀察到,雖然DPO利用了更多新來源的數據,但基於現有SFT數據的SPIN從迭代1開始,SPIN甚至超越了DPO的性能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

參考資料:

https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

################################################################ ########

以上是UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具