首頁 >科技週邊 >人工智慧 >像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

PHPz
PHPz轉載
2024-02-04 09:20:38642瀏覽

現有的大模型對齊方法包括基於範例的監督微調(SFT)和基於分數回饋的強化學習(RLHF)。然而,分數只能反應目前回應的好壞程度,並不能明確指出模型的不足之處。相較之下,我們人類通常是從語言回饋中學習並調整自己的行為模式。就像審稿意見不只是一個分數,還包括許多接受或拒絕的理由。

那麼,大語言模型能否也像人類一樣利用語言回饋來改善自身呢?

香港中文大學和騰訊AI Lab的研究者們最近提出了一項名為對比式非似然訓練(Contrastive Unlikelihood Learning,CUT)的創新研究。該研究利用語言回饋來調整語言模型,使其能夠像人類一樣從不同的批評意見中學習和進步。這項研究旨在提高語言模型的品質和準確性,使其更符合人類思維方式。透過對比非似然訓練,研究者們希望能讓語言模型更好地理解和適應多樣化的語言使用情境,從而提高其在自然語言處理任務中的表現。這項創新研究有望為語言模型

CUT是簡單而有效的方法。僅透過使用1317條語言回饋數據,CUT能夠大幅提升LLaMA2-13b在AlpacaEval上的勝率,從1.87%飆升至62.56%,並成功擊敗了175B的DaVinci003。令人興奮的是,CUT還能像其他強化學習與強化學習強化回饋(RLHF)框架一樣進行探索、批評與改進的循環迭代。在這過程中,批評階段可以由自動評價模型完成,以實現整個系統的自我評估和提升。

作者對 LLaMA2-chat-13b 進行了四輪迭代,將模型在 AlpacaEval 上的性能從 81.09% 逐步提升至 91.36%。相較於基於分數回饋的對齊技術(DPO),CUT 在同等資料規模下表現較佳。研究結果揭示了語言回饋在對齊領域具有巨大的發展潛力,為未來的對齊研究開闢了新的可能性。這項發現對於提高對齊技術的精確性和效率具有重要意義,並為實現更好的自然語言處理任務提供了指導。

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

  • 論文標題:Reasons to Reject? Aligning Language Models with Judgments
  • #論文連結:https://arxiv.org/abs/2312.14591
  • Github 連結:https://github.com/ wwxu21/CUT

大模型的對齊

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

##根據現有工作,研究人員總結了兩種常見的大模型對齊方式:

1. 從範例中學習(Learning from Demonstration):基於現成的指令- 回复對,利用監督式訓練的方法來對齊大模型。

  • 優點:訓練穩定;實現簡單。
  • 缺點:收集高品質、多樣化的範例資料成本高;無法從錯誤回覆中學習;範例資料往往和模型無關。

2. 從分數回饋中學習(Learning from Rewards):給指令- 回復對打分,利用強化學習訓練模型最大化其回复的得分。

  • 優點:能同時利用正確回覆與錯誤回覆;回饋訊號與模型相關。
  • 缺點:回饋訊號稀疏;訓練過程往往較為複雜。

此研究關注的則是從語言回饋中學習(Learning from Judgments):給指令- 回覆對寫評語,基於該語言回饋改進模型存在的瑕疵,保持模型的優點,進而提升模型效能。

可以看出,語言回饋繼承了分數回饋的優點。與分數回饋相比,語言回饋的資訊量更大:與其讓模型去猜哪裡做對了和哪裡做錯了,語言回饋可以直接指出詳細的不足之處和改進方向。然而,令人遺憾的是,研究者發現目前尚無有效方法能充分利用語言回饋。為此,研究者提出了一個創新的框架 CUT,旨在充分發揮語言回饋的優勢。

對比式非似然訓練

CUT 的核心思想是從對比中學習。研究者透過對比大模型在不同條件下的回應去啟發哪些部分是令人滿意的,應該保持,哪些部分是有瑕疵,需要修改。基於此,研究者利用最大似然估計(MLE)來訓練令人滿意的部分,利用非似然訓練(UT)來修改回復中的瑕疵。

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

1. 對齊場景:如上圖所示,研究者考慮了兩個對齊情境:

a)像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍:這是一個通常理解的對齊場景,在該場景下,回應需要忠實地遵循指示並符合人類的期望和價值觀。

b)像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍:此場景引入了語言回饋作為額外的條件。在該場景下,回覆要同時滿足指令和語言回饋。例如,當收到一個負面回饋,大模型需要根據對應的回饋中提到的問題去犯錯。

2. 對齊資料:如上圖所示,基於上述兩者對齊場景,研究者們建構了三個類別對齊資料:

a) Align-P:大模型產生了令人滿意的回复,因此獲得了積極的反饋。顯然,Align-P 在像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍場景下都是滿足對齊的。

b) Align-N:大模型產生了有瑕疵(藍色加粗)的回复,因此獲得了負面的回饋。對於 Align-N,像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍中是不滿足對齊。但考慮到此負面回饋後,Align-N 在像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍場景下仍是對齊的。

c) Misalign:Align-N 中真實的負面回饋被替換為一條偽造的正面回饋。顯然,Misalign 在像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍場景下都不滿足對齊。

3. 從對照學習

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

a) Align-N v.s. Misalign:兩者的差異主要在於像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍下的對齊程度。鑑於大模型強大的上下文內學習能力(in-context learning),從Align-N 到Misalign 的對齊極性翻轉通常伴隨著特定詞的生成概率的顯著變化,尤其是那些與真實消極反饋密切相關的詞。如上圖所示,在 Align-N(左通路)的條件下,大模型產生 “a” 的機率明顯高於 Misalign(右通路)。而這機率顯著變化的地方剛好是大模型犯錯的地方。

為了從這個對比中學習,研究者們將Align-N 和Misalign 資料同時輸入給大模型,以取得輸出詞分別在兩個條件下的生成機率像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍。那些在像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍條件下有著明顯高於像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍條件下的生成機率的字被標記為不合適的字。具體而言,研究者採用以下標準來量化不合適詞的界定:

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

其中像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍#是權衡不合適詞辨識過程中精確度和召回的超參數。

研究者們對這些辨識出來的不合適詞彙採用非似然訓練(UT),從而迫使大模型去探索更令人滿意的回應。對於其他回應詞,研究者仍採用最大似然估計(MLE)來優化:

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

是控制非似然訓練的比重的超參數,像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍是回覆詞數。 像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍b) Align-P v.s. Align-N

:兩者的差異主要在於

下的對齊程度。本質上,大模型透過引入不同極性的語言回饋來控制輸出回應的品質。因此該二者的對比能啟發大模型去區分令人滿意的回復和有瑕疵的回應。具體而言,研究者們透過以下最大似然估計(MLE)損失來從該組對比中學習:像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

##其中

是指示函數,如果資料滿足對齊回傳1,否則回傳0。

CUT 最終的訓練目標結合了上述兩組對比:

實驗評估像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

#########1.離線對準###############為了省錢,研究者們首先嘗試了利用現成的語言回饋資料來對齊大模型。此實驗用於證明 CUT 在利用語言回饋的能力。 ############a) 通用模型################

如上表所示,在通用模型對齊上,研究者使用Shepherd 提供的1317 個對齊數據,分別在冷啟動(LLaMA2)和熱啟動(LLaMA2-chat)的條件下比較了CUT與現有從語言回饋學習的方法。

在基於 LLaMA2 的冷啟動實驗下,CUT 在 AlpacaEval 測試平台上大幅超越現有對齊方法,充分證明了其在利用語言回饋方面的優勢。而 CUT 在 TruthfulQA 上相比於基座模型也取得了大幅提升,這揭示了 CUT 在緩解大模型幻覺(hallucination)問題上有巨大潛力。

在基於 LLaMA2-chat 的熱啟動場景中,現有方法在提升 LLaMA2-chat 方面表現不佳,甚至產生了負面影響。然而,CUT 卻能在此基礎上進一步提升基座模型的效能,再次驗證了 CUT 在利用語言回饋方面的巨大潛力。

b) 專家模型

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

#研究者同時測試了在特定專家任務(文本摘要)上CUT 的對齊效果。如上表所示,CUT 在專家任務上相比現有對齊方法也取得了明顯的提升。

2. 線上對齊

#離線對齊的研究已經成功證明了 CUT 的強大對齊性能。現在,研究者進一步地探索了更貼近實際應用的線上對齊場景。在這個場景中,研究者迭代地對目標大模型的回應進行語言回饋標註,使該目標模型能夠根據與其相關的語言回饋進行更精確的對齊。具體流程如下:

  • 步驟1:收集指令像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍,並獲得目標大模型的回應像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
  • 步驟 2:針對上述指示 - 回覆對,標註語言回饋像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
  • 步驟 3:採用 CUT,基於收集到的三元組資料像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍微調目標大模型。

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍


#如上圖所示,經過四輪線上對齊迭代後,CUT 在僅有4000 條訓練資料和較小的13B 模型規模的條件下,仍然能夠取得令人矚目的91.36 分數。這項成績進一步展示了 CUT 卓越的性能和巨大的潛力。

3. AI 評語模型

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

考慮到語言回饋的標註成本,研究者嘗試訓練評語模型(Judgement Model)來自動為目標大模型標註語言回饋。如上圖所示,研究者分別使用 5000 個(AI Judge-5000)和 3000 個(AI Judge-3000)語言回饋資料來訓練了兩個評語模型。這兩個評語模型在優化目標大型模型方面都取得了顯著成果,尤其是 AI Judge-5000 的效果更為突出。

這證明了利用 AI 評語模型對齊目標大模型的可行性,同時也突顯了評語模型品質在整個對齊過程中的重要性。這組實驗也為未來降低標註成本提供了強力支持。

4. 語言回饋 vs. 分數回饋

#

為了深入挖掘語言回饋在大型模型對齊中的巨大潛力,研究者將基於語言回饋的 CUT 與基於分數回饋的方法(DPO)進行了對比。為了確保比較的公平性,研究者選取​​了 4000 組相同的指令 - 回復對作為實驗樣本,讓 CUT 和 DPO 分別從這些資料所對應的分數回饋和語言回饋中學習。

像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍

如上表所示,在冷啟動(LLaMA2)實驗中,CUT 的表現明顯優於 DPO。而在熱啟動(LLaMA2-chat)實驗中,CUT 在 ARC、HellaSwag、MMLU 和 TruthfulQA 等任務上能取得與 DPO 相媲美的成績,並在 AlpacaEval 任務上大幅領先 DPO。這項實驗證實了在大型模型對齊過程中,相較於分數回饋,語言回饋具有更大的潛力和優勢。

總結與挑戰

該工作中,研究者們系統地探討了語言回饋在大模型對齊中的現狀並創新性地提出了一個基於語言回饋的對齊框架CUT,揭示了語言回饋在大型模型對齊領域所具有的巨大潛力和優勢。此外,語言回饋的研究還有一些新的方向和挑戰,例如:

#1. 評語模型的品質:儘管研究人員已成功地證實了訓練評語模型的可行性,但在觀察模型輸出時,他們仍然發現評語模型經常給予不夠準確的評估。因此,提升評語模式的品質對於未來大規模利用語言回饋進行對齊具有舉足輕重的意義。

2. 新知識的引入:當語言回饋涉及大模型所缺乏的知識時,大模型即使能準確地辨識出錯誤的地方,但也沒有明確的修改方向。因此在對齊的同時補足大模型缺乏的知識非常重要。

3. 多模態對齊:語言模型的成功促進了多模態大模型的研究,如語言、語音、影像和視訊的結合。在這些多模態場景下,研究語言回饋以及對應模態的回饋迎來了新的定義和挑戰。

以上是像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除