首頁 >科技週邊 >人工智慧 >數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

PHPz
PHPz轉載
2024-02-29 15:55:201041瀏覽

騰訊的研究團隊進行了一項關於agent的可拓展性的研究。他們發現,透過簡單的取樣投票,大型語言模型(LLM)的表現隨著實例化agent數量的增加而增強。這項研究首次在各種場景中驗證了這一現象的普遍性,並與其他複雜方法進行了對比,探討了這一現象背後的原因,並提出了進一步發揮scaling效應的方法。

數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

  • 論文標題:More Agents Is All You Need

  • 論文網址:https://arxiv .org/abs/2402.05120

  • 程式碼位址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,來自騰訊的研究者發現:只需透過一種簡單的採樣投票法,大語言模型的性能就會隨著實例化agent 的數量的增大而增強,呈現scaling property(可拓展性),無需複雜的多LLM agents 協作框架以及prompt工程方法的加持。此外,此方法與現有的複雜方法正交,結合後,可進一步增強 LLM,其增強程度與任務難度相關。該論文做了第一個關於raw agent(指不依賴複雜的prompt工程和協作框架的LLM agent)的scaling property 的研究,其對各種LLM 基準進行了全面的實驗,以驗證此發現的普遍性,並研究了可以促進其發生的策略。目前程式碼已開源。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
                                   作用中對多重中的相關模型中探討了多種模式一樣#LL#N#LL#LL#LL#LL#N想法#LL#LL#LL#LL#您的多種模式。研究,其中包括LLM的自集成、異質LLM的集成,以及多個LLM代理協作框架的研究。透過與所提出的方法進行對比,可以看出論文進行了更全面的研究和分析。

為了研究大型語言模型的效能如何隨著實例化 agents 數量的增加而提升。論文使用了一種簡單的採樣和投票方法(作者用了 simple (st) 的說法,可見他們認為這個方法也許是最簡單的方法之一)。值得注意的是,此方法可與現有的複雜方法正交結合。它可以被分成兩個階段:
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

將任務query 輸入到單一LLM 或多個LLM Agents 協作框架中,產生多個輸出;
  • 透過多數票決定最終結果
論文從Llama2 和GPT 系列選擇不同規模的語言模型進行評估,任務資料集涵蓋推理和生成等多個領域。實驗結果表明,
在所有任務和不同種類、規模的 LLM 上,發現 LLM 的效能隨著實例化 agent 的數量而增加。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
例如,在 GSM8K 任務上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,

多個小 LLM 整合可以達到甚至超越較大 LLM 的效能。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好例如,多個 Llama2-13B 的整合在 GSM8K 上達到了 59% 準確率,超過了單一 Llama2-70B 的 54% 的準確率。

進一步地,作者也探討了與其他方法的兼容性。 儘管這些方法實現各不相同,但是在與之結合使用時,性能可以進一步提升,並同樣符合實例化 agent 越多,性能增益越強的現象。 實驗結果顯示增益範圍從 1% 到 27% 不等,說明這個簡單的方法透過和其他方法正交使用可以進一步增強 LLM 的性能。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

                               #1

                                 基於LLama70B數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

基於GPT-3.5-Turbo數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

此外,論文也分析了效能提升與問題難度之間的關係。

固有難度:隨著任務固有難度的增加,效能提升(即相對效能增益)也會增加,但當難度達到一定程度後,增益會逐漸減少。這顯示在任務過於複雜時,模型的推理能力可能無法跟上,導致效能提升的邊際效應遞減。
    步驟數:隨著解決任務所需的步驟數增加,效能提升也會增加。這表明在多步驟任務中,透過增加 agent 數量可以幫助模型更好地處理每一步,從而整體提高任務的解決效能。
  • 先驗機率:正確答案的先驗機率越高,效能提升越大。這意味著在正確答案更有可能的情況下,增加 agent 數量更有可能帶來顯著的效能提升。
節點:步驟,虛線:可能的替代步驟。節點的深度:步驟的數量,顏色的強度:固有難度的程度。圖示幫助讀者理解任務的複雜性是如何透過這些維度來衡量的。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
基於此,論文提出了兩種最佳化策略來進一步提升方法的有效性:

逐步採樣和投票(Step-wise Sampling-and-Voting):這種方法將任務分解為多個步驟,並在每個步驟中應用採樣和投票,以減少累積錯誤並提高整體性能。

    分層採樣和投票(Hierarchical Sampling-and-Voting):這種方法將低機率任務分解為多個高機率子任務,並分層解決,同時可以使用不同模型來處理不同機率的子任務以降低成本。
  • 最後,提出了未來的工作方向,包括優化取樣階段以降低成本,並繼續開發相關機制來減輕LLM 幻覺(hallucinations)的帶來的潛在負面影響,確保這些強大模型的部署既負責任又有益。

以上是數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除