搜尋
首頁科技週邊人工智慧數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

騰訊的研究團隊進行了一項關於agent的可拓展性的研究。他們發現,透過簡單的取樣投票,大型語言模型(LLM)的表現隨著實例化agent數量的增加而增強。這項研究首次在各種場景中驗證了這一現象的普遍性,並與其他複雜方法進行了對比,探討了這一現象背後的原因,並提出了進一步發揮scaling效應的方法。

數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

  • 論文標題:More Agents Is All You Need

  • 論文網址:https://arxiv .org/abs/2402.05120

  • 程式碼位址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,來自騰訊的研究者發現:只需透過一種簡單的採樣投票法,大語言模型的性能就會隨著實例化agent 的數量的增大而增強,呈現scaling property(可拓展性),無需複雜的多LLM agents 協作框架以及prompt工程方法的加持。此外,此方法與現有的複雜方法正交,結合後,可進一步增強 LLM,其增強程度與任務難度相關。該論文做了第一個關於raw agent(指不依賴複雜的prompt工程和協作框架的LLM agent)的scaling property 的研究,其對各種LLM 基準進行了全面的實驗,以驗證此發現的普遍性,並研究了可以促進其發生的策略。目前程式碼已開源。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
                                   作用中對多重中的相關模型中探討了多種模式一樣#LL#N#LL#LL#LL#LL#N想法#LL#LL#LL#LL#您的多種模式。研究,其中包括LLM的自集成、異質LLM的集成,以及多個LLM代理協作框架的研究。透過與所提出的方法進行對比,可以看出論文進行了更全面的研究和分析。

為了研究大型語言模型的效能如何隨著實例化 agents 數量的增加而提升。論文使用了一種簡單的採樣和投票方法(作者用了 simple (st) 的說法,可見他們認為這個方法也許是最簡單的方法之一)。值得注意的是,此方法可與現有的複雜方法正交結合。它可以被分成兩個階段:
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

將任務query 輸入到單一LLM 或多個LLM Agents 協作框架中,產生多個輸出;
  • 透過多數票決定最終結果
論文從Llama2 和GPT 系列選擇不同規模的語言模型進行評估,任務資料集涵蓋推理和生成等多個領域。實驗結果表明,
在所有任務和不同種類、規模的 LLM 上,發現 LLM 的效能隨著實例化 agent 的數量而增加。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
例如,在 GSM8K 任務上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,

多個小 LLM 整合可以達到甚至超越較大 LLM 的效能。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好例如,多個 Llama2-13B 的整合在 GSM8K 上達到了 59% 準確率,超過了單一 Llama2-70B 的 54% 的準確率。

進一步地,作者也探討了與其他方法的兼容性。 儘管這些方法實現各不相同,但是在與之結合使用時,性能可以進一步提升,並同樣符合實例化 agent 越多,性能增益越強的現象。 實驗結果顯示增益範圍從 1% 到 27% 不等,說明這個簡單的方法透過和其他方法正交使用可以進一步增強 LLM 的性能。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

                               #1

                                 基於LLama70B數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

基於GPT-3.5-Turbo數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

此外,論文也分析了效能提升與問題難度之間的關係。

固有難度:隨著任務固有難度的增加,效能提升(即相對效能增益)也會增加,但當難度達到一定程度後,增益會逐漸減少。這顯示在任務過於複雜時,模型的推理能力可能無法跟上,導致效能提升的邊際效應遞減。
    步驟數:隨著解決任務所需的步驟數增加,效能提升也會增加。這表明在多步驟任務中,透過增加 agent 數量可以幫助模型更好地處理每一步,從而整體提高任務的解決效能。
  • 先驗機率:正確答案的先驗機率越高,效能提升越大。這意味著在正確答案更有可能的情況下,增加 agent 數量更有可能帶來顯著的效能提升。
節點:步驟,虛線:可能的替代步驟。節點的深度:步驟的數量,顏色的強度:固有難度的程度。圖示幫助讀者理解任務的複雜性是如何透過這些維度來衡量的。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
基於此,論文提出了兩種最佳化策略來進一步提升方法的有效性:

逐步採樣和投票(Step-wise Sampling-and-Voting):這種方法將任務分解為多個步驟,並在每個步驟中應用採樣和投票,以減少累積錯誤並提高整體性能。

    分層採樣和投票(Hierarchical Sampling-and-Voting):這種方法將低機率任務分解為多個高機率子任務,並分層解決,同時可以使用不同模型來處理不同機率的子任務以降低成本。
  • 最後,提出了未來的工作方向,包括優化取樣階段以降低成本,並繼續開發相關機制來減輕LLM 幻覺(hallucinations)的帶來的潛在負面影響,確保這些強大模型的部署既負責任又有益。

以上是數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具