LLM學會左右互搏，基礎模型或將迎來群體革新-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

LLM學會左右互搏，基礎模型或將迎來群體革新

王林

Jan 08, 2024 pm 07:34 PM

ai模型

金庸武俠小說中有一門武術絕技：左右互搏；乃是周伯通在桃花島的地洞裡苦練十餘年所創武功，初期想法在於左手與右手打架，以自娛自樂。而這種想法不僅能用來練武功，也能用來訓練機器學習模型，例如前幾年風靡一時的生成對抗網路（GAN）。

進入現今的大模型（LLM）時代，研究者發現了左右互搏的精妙用法。最近，加州大學洛杉磯分校的顧全團隊提出了一種名為SPIN（Self-Play Fine-Tuning）的新方法。這種方法能夠在不使用額外的微調資料的情況下，僅透過自我博弈來大幅提升LLM的能力。顧全全教授表示：「授之以魚不如授之以漁：透過自我博弈微調（SPIN）可以讓所有大模型從弱到強得到提升！」

LLM學會左右互搏，基礎模型或將迎來群體革新

這項研究也在社交網路引起了不少討論，例如賓州大學華頓商學院的Ethan Mollick 教授就表示：「更多證據表明，AI 不會受限於可供其訓練的人類創造內容的數量。這篇論文再次表明使用AI 創造的資料訓練AI 可以比僅使用人類創造的資料獲得更高品質的結果。」

LLM學會左右互搏，基礎模型或將迎來群體革新

此外，還有許多研究人員對此方法感到興奮，並對2024 年在相關方向的進展表現出極大期待。顧全全教授向機器之心表示：「如果你希望訓練一個超越GPT-4 的大模型，這是絕對值得嘗試的技術。」

LLM學會左右互搏，基礎模型或將迎來群體革新

##論文網址為https://arxiv.org/pdf/2401.01335.pdf。

大型語言模型（LLM）開啟了通用人工智慧（AGI）的大突破時代，它能以非凡的能力解決需要複雜推理和專業知識的廣泛任務。 LLM 擅長的領域包括數學推理 / 問題求解、程式碼生成 / 程式設計、文字生成、摘要和創意寫作等等。

LLM 的一大關鍵進步是訓練後的對齊過程，這能讓模型的行為更符合需求，但這個過程卻往往依賴於成本高昂的人類標註資料。經典的對齊方法包括基於人類演示的監督式微調（SFT）和基於人類偏好回饋的強化學習（RLHF）。

而這些對齊方法全都需要大量人類標註資料。因此，為了精簡對齊過程，研究人員希望開發出能有效利用人類數據的微調方法。

這也是這項研究的目標：發展出新的微調方法，使得微調後的模型可以繼續變強，而且這個微調過程無需使用微調資料集以外的人類標註數據。

實際上，機器學習社群一直都很關注如何在不使用額外訓練資料的情況下將弱模型提升成強模型，這方面的研究甚至可以追溯至boosting 演算法。也有研究表明，自訓練演算法可以在混合模型中將弱學習器轉換成強學習器，而無需額外的標註資料。但是，要在沒有外部引導的前提下自動提升 LLM 的能力既複雜又少有研究。這就引出了以下問題：

我們能讓 LLM 在沒有額外人類標註資料的前提下實現自我提升嗎？

方法

#從技術細節上講，我們可以將來自先前迭代的LLM 記為pθt，其對於人類標註的SFT 資料集中的prompt x，可以產生響應y'。接下來的目標是找到一個新的 LLM pθ{t 1}，使其有能力區分 pθt 產生的響應 y' 和人類給出的響應 y。

這個過程可被視為一個兩個玩家的遊戲過程：主玩家就是新LLM pθ{t 1}，其目標是區分對手玩家pθt 的反應以及人類生成的反應；對手玩家就是舊LLM pθt，其任務是產生與人類標註的SFT 資料集盡可能相近的反應。

新 LLM pθ{t 1} 是通过微调旧 LLM pθt 得到的，训练过程是让新的 LLM pθ{t 1} 有很好的能力区分 pθt 生成的响应 y' 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t 1} 作为一个主玩家达到很好的区分能力，而且让新的 LLM pθ{t 1} 作为一个对手玩家在下一轮迭代中，给出更对齐 SFT 数据集的响应。在下一轮迭代中，新获得的 LLM pθ{t 1} 会变成响应生成的对手玩家。

LLM學會左右互搏，基礎模型或將迎來群體革新

这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data，使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。

有趣的是，这个新方法与 Rafailov et al. 近期提出的直接偏好优化（DPO）方法表现出了相似性，但新方法的明显区别是采用了自我博弈机制。也因此，这个新方法就有了一大显著优势：无需额外的人类偏好数据。

此外，我们也能明显看出这种新方法与生成对抗网络（GAN）的相似性，只不过新方法中的判别器（主玩家）和生成器（对手）是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新方法进行了理论证明，结果表明：当且仅当 LLM 的分布等于目标数据分布时，即 p_θ_t=p_data 时，该方法可以收敛。

实验

在实验中，该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明，新方法能在连续迭代中持续提升 zephyr-7b-sft-full，而作为对比，当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时，评估分数则会达到性能瓶颈，甚至出现下降情况。

更有趣的是，新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集！

新方法 SPIN 还有另一项成就：可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16，其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升，在 MT-Bench 上也可从 5.94 提升至 6.78。

LLM學會左右互搏，基礎模型或將迎來群體革新

值得注意的是，在 Open LLM 排行榜上，使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。

LLM學會左右互搏，基礎模型或將迎來群體革新

结论

通过充分利用人类标注数据，SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习（RLHF）相比，SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上，SPIN 显著且稳定地提高了 LLM 的性能，甚至超过了使用额外 AI 反馈训练的模型。

我们期待 SPIN 可以助力大模型的进化和提升，并最终实现超越人类水平的人工智能。

以上是LLM學會左右互搏，基礎模型或將迎來群體革新的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

META的新AI助手：生產力助推器還是時間下沉？May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴，拓展了Llama Stack的企業級部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，並啟動了Llama Defenders計劃，以增強AI安全性。此外，Meta還向10個全球機構（包括致力於改善公共服務、醫療保健和教育的初創企業）發放了總額150萬美元的Llama Impact Grants。由Llama 4驅動的全新Meta AI應用，被設想為Meta AI

80％的Zers將嫁給AI：研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說，這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。零售商與機器人ho積產品，銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題，Rende

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客