數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好

PHPz

Feb 29, 2024 pm 03:55 PM

騰訊工程

騰訊的研究團隊進行了一項關於agent的可拓展性的研究。他們發現，透過簡單的取樣投票，大型語言模型（LLM）的表現隨著實例化agent數量的增加而增強。這項研究首次在各種場景中驗證了這一現象的普遍性，並與其他複雜方法進行了對比，探討了這一現象背後的原因，並提出了進一步發揮scaling效應的方法。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好

論文標題：More Agents Is All You Need
論文網址：https://arxiv .org/abs/2402.05120
程式碼位址：https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中，來自騰訊的研究者發現：只需透過一種簡單的採樣投票法，大語言模型的性能就會隨著實例化agent 的數量的增大而增強，呈現scaling property（可拓展性），無需複雜的多LLM agents 協作框架以及prompt工程方法的加持。此外，此方法與現有的複雜方法正交，結合後，可進一步增強 LLM，其增強程度與任務難度相關。該論文做了第一個關於raw agent（指不依賴複雜的prompt工程和協作框架的LLM agent）的scaling property 的研究，其對各種LLM 基準進行了全面的實驗，以驗證此發現的普遍性，並研究了可以促進其發生的策略。目前程式碼已開源。

^{作用中對多重中的相關模型中探討了多種模式一樣#LL#N#LL#LL#LL#LL#N想法#LL#LL#LL#LL#您的多種模式。研究，其中包括LLM的自集成、異質LLM的集成，以及多個LLM代理協作框架的研究。透過與所提出的方法進行對比，可以看出論文進行了更全面的研究和分析。}

為了研究大型語言模型的效能如何隨著實例化 agents 數量的增加而提升。論文使用了一種簡單的採樣和投票方法（作者用了 simple (st) 的說法，可見他們認為這個方法也許是最簡單的方法之一）。值得注意的是，此方法可與現有的複雜方法正交結合。它可以被分成兩個階段：

將任務query 輸入到單一LLM 或多個LLM Agents 協作框架中，產生多個輸出;

透過多數票決定最終結果

論文從Llama2 和GPT 系列選擇不同規模的語言模型進行評估，任務資料集涵蓋推理和生成等多個領域。實驗結果表明，

在所有任務和不同種類、規模的 LLM 上，發現 LLM 的效能隨著實例化 agent 的數量而增加。數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好

例如，在 GSM8K 任務上提升了 12% 至 24%，在 MATH 上提升了 6% 至 10%。有趣的是，

多個小 LLM 整合可以達到甚至超越較大 LLM 的效能。數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好例如，多個 Llama2-13B 的整合在 GSM8K 上達到了 59% 準確率，超過了單一 Llama2-70B 的 54% 的準確率。

進一步地，作者也探討了與其他方法的兼容性。 儘管這些方法實現各不相同，但是在與之結合使用時，性能可以進一步提升，並同樣符合實例化 agent 越多，性能增益越強的現象。 實驗結果顯示增益範圍從 1% 到 27% 不等，說明這個簡單的方法透過和其他方法正交使用可以進一步增強 LLM 的性能。