首頁  >  文章  >  科技週邊  >  LLM學會左右互搏,基礎模型或將迎來群體革新

LLM學會左右互搏,基礎模型或將迎來群體革新

王林
王林轉載
2024-01-08 19:34:011121瀏覽

金庸武俠小說中有一門武術絕技:左右互搏;乃是周伯通在桃花島的地洞裡苦練十餘年所創武功,初期想法在於左手與右手打架,以自娛自樂。而這種想法不僅能用來練武功,也能用來訓練機器學習模型,例如前幾年風靡一時的生成對抗網路(GAN)。

進入現今的大模型(LLM)時代,研究者發現了左右互搏的精妙用法。最近,加州大學洛杉磯分校的顧全團隊提出了一種名為SPIN(Self-Play Fine-Tuning)的新方法。這種方法能夠在不使用額外的微調資料的情況下,僅透過自我博弈來大幅提升LLM的能力。顧全全教授表示:「授之以魚不如授之以漁:透過自我博弈微調(SPIN)可以讓所有大模型從弱到強得到提升!」

LLM學會左右互搏,基礎模型或將迎來群體革新

這項研究也在社交網路引起了不少討論,例如賓州大學華頓商學院的Ethan Mollick 教授就表示:「更多證據表明,AI 不會受限於可供其訓練的人類創造內容的數量。這篇論文再次表明使用AI 創造的資料訓練AI 可以比僅使用人類創造的資料獲得更高品質的結果。」

LLM學會左右互搏,基礎模型或將迎來群體革新

此外,還有許多研究人員對此方法感到興奮,並對2024 年在相關方向的進展表現出極大期待。顧全全教授向機器之心表示:「如果你希望訓練一個超越GPT-4 的大模型,這是絕對值得嘗試的技術。」

LLM學會左右互搏,基礎模型或將迎來群體革新

##論文網址為https://arxiv.org/pdf/2401.01335.pdf。

大型語言模型(LLM)開啟了通用人工智慧(AGI)的大突破時代,它能以非凡的能力解決需要複雜推理和專業知識的廣泛任務。 LLM 擅長的領域包括數學推理 / 問題求解、程式碼生成 / 程式設計、文字生成、摘要和創意寫作等等。

LLM 的一大關鍵進步是訓練後的對齊過程,這能讓模型的行為更符合需求,但這個過程卻往往依賴於成本高昂的人類標註資料。經典的對齊方法包括基於人類演示的監督式微調(SFT)和基於人類偏好回饋的強化學習(RLHF)。

而這些對齊方法全都需要大量人類標註資料。因此,為了精簡對齊過程,研究人員希望開發出能有效利用人類數據的微調方法。

這也是這項研究的目標:發展出新的微調方法,使得微調後的模型可以繼續變強,而且這個微調過程無需使用微調資料集以外的人類標註數據。

實際上,機器學習社群一直都很關注如何在不使用額外訓練資料的情況下將弱模型提升成強模型,這方面的研究甚至可以追溯至boosting 演算法。也有研究表明,自訓練演算法可以在混合模型中將弱學習器轉換成強學習器,而無需額外的標註資料。但是,要在沒有外部引導的前提下自動提升 LLM 的能力既複雜又少有研究。這就引出了以下問題:

我們能讓 LLM 在沒有額外人類標註資料的前提下實現自我提升嗎?

方法

#從技術細節上講,我們可以將來自先前迭代的LLM 記為pθt,其對於人類標註的SFT 資料集中的prompt x,可以產生響應y'。接下來的目標是找到一個新的 LLM pθ{t 1},使其有能力區分 pθt 產生的響應 y' 和人類給出的響應 y。

這個過程可被視為一個兩個玩家的遊戲過程:主玩家就是新LLM pθ{t 1},其目標是區分對手玩家pθt 的反應以及人類生成的反應;對手玩家就是舊LLM pθt,其任務是產生與人類標註的SFT 資料集盡可能相近的反應。

新 LLM pθ{t 1} 是通过微调旧 LLM pθt 得到的,训练过程是让新的 LLM pθ{t 1} 有很好的能力区分 pθt 生成的响应 y' 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t 1} 作为一个主玩家达到很好的区分能力,而且让新的 LLM pθ{t 1} 作为一个对手玩家在下一轮迭代中,给出更对齐 SFT 数据集的响应。在下一轮迭代中,新获得的 LLM pθ{t 1} 会变成响应生成的对手玩家。

LLM學會左右互搏,基礎模型或將迎來群體革新


LLM學會左右互搏,基礎模型或將迎來群體革新

这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data,使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。

有趣的是,这个新方法与 Rafailov et al. 近期提出的直接偏好优化(DPO)方法表现出了相似性,但新方法的明显区别是采用了自我博弈机制。也因此,这个新方法就有了一大显著优势:无需额外的人类偏好数据。

此外,我们也能明显看出这种新方法与生成对抗网络(GAN)的相似性,只不过新方法中的判别器(主玩家)和生成器(对手)是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新方法进行了理论证明,结果表明:当且仅当 LLM 的分布等于目标数据分布时,即 p_θ_t=p_data 时,该方法可以收敛。

实验

在实验中,该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明,新方法能在连续迭代中持续提升 zephyr-7b-sft-full,而作为对比,当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时,评估分数则会达到性能瓶颈,甚至出现下降情况。

更有趣的是,新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集!

新方法 SPIN 还有另一项成就:可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升,在 MT-Bench 上也可从 5.94 提升至 6.78。

LLM學會左右互搏,基礎模型或將迎來群體革新

LLM學會左右互搏,基礎模型或將迎來群體革新

值得注意的是,在 Open LLM 排行榜上,使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。

LLM學會左右互搏,基礎模型或將迎來群體革新

结论

通过充分利用人类标注数据,SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习(RLHF)相比,SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上,SPIN 显著且稳定地提高了 LLM 的性能,甚至超过了使用额外 AI 反馈训练的模型。

我们期待 SPIN 可以助力大模型的进化和提升,并最终实现超越人类水平的人工智能。

以上是LLM學會左右互搏,基礎模型或將迎來群體革新的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除