搜尋
首頁科技週邊人工智慧自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

Jan 23, 2024 pm 01:15 PM
meta工程紐約大學自我獎勵方法

人工智慧的回饋(AIF)要取代 RLHF 了?


大模型領域中,微調是改善模型效能的重要一步。隨著開源大模型逐漸變多,人們總結出了許多微調方式,其中一些取得了很好的結果。

最近,來自Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己產生自己的微調數據,給人帶來了一點新的震撼。

在新方法中,作者對Llama 2 70B 進行了三個迭代的微調,生成的模型在AlpacaEval 2.0 排行榜上優於一眾現有重要大模型,包括Claude 2、Gemini Pro 和GPT-4。
自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現
因此,論文剛發上 arXiv 幾個小時就引起了人們的注意。

雖然目前方法還沒有開源,但是人們認為論文中使用的方法描述清晰,復現起來應該不難。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

眾所周知,使用人類偏好資料調整大語言模型(LLM)可以大幅提高預訓練模型的指令追蹤效能。在GPT 系列中,OpenAI 提出了人類回饋強化學習(RLHF) 的標準方法,讓大模型可以從人類偏好中學習獎勵模型,再使得獎勵模型被凍結並用於使用強化學習訓練LLM,這種方法已獲得了巨大的成功。

最近出現的新想法是完全避免訓練獎勵模型,並直接使用人類偏好來訓練 LLM,例如直接偏好最佳化(DPO)。在上述兩種情況下,調優都受到人類偏好資料的大小和品質的瓶頸,並且在 RLHF 的情況下,調優質量也受到從它們訓練的凍結獎勵模型的品質的瓶頸。

在Meta 的新工作中,作者提議訓練一個自我改進的獎勵模型,該模型不是被凍結,而是在LLM 調整期間不斷更新,以避免這一瓶頸。

這種方法的關鍵是發展一個擁有訓練期間所需的所有能力的智能體(而不是分為獎勵模型和語言模型),讓指令跟隨任務的預訓練和多任務訓練允許透過同時訓練多個任務來實現任務遷移。

因此作者引入了自我獎勵語言模型,其智能體既充當遵循模型的指令,為給定的提示生成響應,也可以根據示例生成和評估新指令,以添加到他們自己的訓練集中。

新方法使用類似迭代 DPO 的框架來訓練這些模型。從種子模型開始,如圖 1 所示,在每次迭代中都有一個自指令建立過程,其中模型為新建立的提示產生候選響應,然後由相同模型分配獎勵。後者是透過 LLM-as-a-Judge 的提示來實現的,這也可以看作是指令跟隨任務。根據產生的資料建立偏好資料集,並透過 DPO 訓練模型的下一次迭代。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

  • 論文標題:Self-Rewarding Language Models

  • 論文連結:https://arxiv. org/abs/2401.10020

自我獎勵的語言模型

#作者提出的方法首先假設:可以存取基本的預訓練語言模型和少量人工註釋的種子數據,然後建立一個模型,旨在同時擁有兩種技能:

#1. 指令遵循:給出描述用戶請求的提示,能夠產生高品質、有幫助(且無害)的回應。

2. 自指令建立:能夠按照範例產生和評估新指令以新增至自己的訓練集中。

使用這些技能是為了使模型能夠執行自對準,即它們是用於使用人工智慧回饋(AIF)迭代訓練自身的元件。

自指令的創建包括產生候選回應,然後讓模型本身判斷其質量,即它充當自己的獎勵模型,從而取代對外部模型的需求。這是透過 LLM-as-a-Judge 機制實現的 [Zheng et al., 2023b],即透過將反應評估制定為指令跟隨任務。這個自行創建的 AIF 偏好資料被用作訓練集。

所以在微調過程中,相同的模型被用於兩個角色:作為「學習者」和作為「法官」。基於新出現的法官角色,模型可以透過上下文微調來進一步提升表現。

整體的自對齊過程是一個迭代過程,透過以下步驟來進行:建立一系列模型,每個模型都比上一個模型有所改進。在這其中重要的是,由於模型既可以提高其生成能力,又可以透過相同的生成機製作為自己的獎勵模型,這意味著獎勵模型本身可以透過這些迭代來改進,這就與獎勵模型固有的標準做法出現了差異。 

研究者認為,這種方式可以提高這些學習模式未來自我改進的潛力上限,並消除限制性瓶頸。 

圖 1 展示了此方法的概述。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

實驗

#在實驗中,研究者使用了Llama 2 70B 作為基礎預訓練模式。他們發現,與基線種子模型相比,自獎勵 LLM 對齊不僅提高了指令跟隨表現,獎勵建模能力也提高了。

這意味著在迭代訓練中,模型能夠在給定的迭代中為自己提供比上一次迭代品質更好的偏好資料集。雖然這種影響在現實世界中會趨於飽和,但提供了一個有趣的可能:這樣得到的獎勵模型(以及 LLM)要優於僅從人類撰寫的原始種子資料中訓練的模型。

在指令跟隨能力方面,實驗結果如圖3 所示:

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現研究者在AlpacaEval 2 排行榜上評估了自獎勵模型,結果如表1 所示。他們觀察到了與 head-to-head 評估相同的結論,即訓練迭代的勝率比 GPT4-Turbo 高,從迭代 1 的 9.94%,到迭代 2 的 15.38%,再到迭代 3 的 20.44%。同時,迭代 3 模型優於許多現有模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

獎勵建模評估結果如表2,結論包括:
  • EFT在SFT基線上有所改進,使用IFT EFT與單獨使用IFT相比,五個測量指標都有所提升。例如,與人類的配對準確率一致性從65.1%上升到78.7%。

  • 透過自我訓練提升獎勵建模能力。在進行一輪自我獎勵訓練後,模型為下一次迭代提供自我獎勵的能力得到了提高,此外它的指令跟隨能力也得到了提高。

  • LLMas-a-Judge 提示的重要性。研究者使用了各種提示格式發現,LLMas-a-Judge 提示在使用 SFT 基線時成對準確率更高。

作者認為,自我獎勵的訓練方式既提升了模型的指令追蹤能力,也提升了模型在迭代中的獎勵建模能力。

雖然這只是一項初步研究,但看來已是一個令人興奮的研究方向,此種模型能夠更好地在未來的迭代中分配獎勵,以改善指令遵循,實現一種良性循環。

這種方法也為更複雜的判斷方法開啟了一定的可能性。例如,大模型可以透過搜尋資料庫來驗證其答案的準確性,從而獲得更準確和可靠的輸出。

參考:https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/
#

以上是自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)