L’équipe de recherche de Tencent a mené une étude sur l’évolutivité des agents. Ils ont constaté que grâce à un simple vote par échantillonnage, les performances des grands modèles de langage (LLM) augmentent avec le nombre d'agents instanciés. Cette étude a vérifié pour la première fois l'universalité de ce phénomène dans divers scénarios, l'a comparé à d'autres méthodes complexes, exploré les raisons de ce phénomène et proposé des méthodes pour exercer davantage l'effet d'échelle.
Titre du papier : Plus d'agents est tout ce dont vous avez besoin
Adresse du papier : https://arxiv.org/abs/2402.05120
Adresse du code : https://github.com/MoreAgentsIsAllYouNeed /Plus d'agents est tout ce dont vous avez besoin
Dans cet article, des chercheurs de Tencent ont découvert que : grâce à une simple méthode de vote par échantillonnage, les performances des grands modèles de langage augmenteront avec l'instanciation des agents. à mesure que le nombre augmente, cela montre la propriété de mise à l'échelle (évolutivité) sans avoir besoin d'un cadre de collaboration complexe d'agents multi-LLM et de méthodes d'ingénierie rapides. De plus, cette méthode est orthogonale aux méthodes sophistiquées existantes et, lorsqu'elles sont combinées, peuvent améliorer davantage le LLM dans un degré lié à la difficulté de la tâche. Cet article a réalisé la première étude sur la propriété de mise à l'échelle des agents bruts (faisant référence aux agents LLM qui ne s'appuient pas sur des cadres complexes d'ingénierie et de collaboration). Il a mené des expériences complètes sur divers benchmarks LLM pour vérifier l'universalité de ces résultats et examiner. stratégies qui peuvent faciliter son apparition. Le code est actuellement open source.过 plusieurs petits modèles dépassent le grand modèle. La thèse a discuté en détail d'une variété de LLM intégrés, y compris l'auto-intégration du LLM, l'intégration de LLM hétérogènes et le cadre de plusieurs collaborations d'agences LLM Recherche. En comparant avec la méthode proposée, on peut voir que le document a mené une recherche et une analyse plus complètes.
Etudier comment les performances des grands modèles de langage s'améliorent à mesure que le nombre d'agents instanciés augmente. L'article utilise une méthode simple d'échantillonnage et de vote (l'auteur utilise le terme simple (st), ce qui montre qu'il pense que cette méthode peut être l'une des méthodes les plus simples). Notamment, cette méthode peut être combinée orthogonalement avec des méthodes complexes existantes. Il peut être divisé en deux étapes :
Saisir une requête de tâche dans un seul cadre de collaboration LLM ou plusieurs agents LLM pour générer plusieurs sorties Déterminer le résultat final par vote majoritaire
- ; L'article sélectionne des modèles linguistiques de différentes tailles dans les séries Llama2 et GPT pour évaluation. L'ensemble de données de tâches couvre plusieurs domaines tels que le raisonnement et la génération. Les résultats expérimentaux montrent que les performances du LLM augmentent avec le nombre d'agents instanciés sur toutes les tâches et avec les différents types et tailles de LLM.
Par exemple, l'amélioration est de 12% à 24% sur la tâche GSM8K et de 6% à 10% sur la tâche MATH. Il est intéressant de noter qu’un ensemble de plusieurs petits LLM peut égaler, voire dépasser, les performances de plus grands LLM.
Par exemple, l'intégration de plusieurs Llama2-13B a atteint une précision de 59 % sur GSM8K, dépassant la précision de 54 % d'un seul Llama2-70B. En outre, l'auteur a également exploré la compatibilité de avec d'autres méthodes. Bien que la mise en œuvre de ces méthodes soit différente, lorsqu'elles sont utilisées en combinaison avec elles, les performances peuvent être encore améliorées. Cela est également cohérent avec le phénomène selon lequel plus d'agents sont instanciés, plus le gain de performances est fort. Les résultats expérimentaux montrent que le gain varie de 1 % à 27 %, indiquant que cette méthode simple peut encore améliorer les performances du LLM en l'utilisant orthogonalement avec d'autres méthodes. A Basé sur LAMA13B
basé sur LAMA70B
basé sur GPT-3.5-Turbo
, en outre, le journal a également analysé la relation entre amélioration des performances et difficulté du problème.
Difficulté intrinsèque : à mesure que la difficulté inhérente de la tâche augmente, l'amélioration des performances (c'est-à-dire le gain de performance relatif) augmentera également, mais lorsque la difficulté atteint un certain niveau, le gain diminuera progressivement. Cela montre que lorsque la tâche est trop complexe, la capacité de raisonnement du modèle peut ne pas être en mesure de suivre le rythme, ce qui entraîne une diminution des effets marginaux des améliorations des performances. Nombre d'étapes : à mesure que le nombre d'étapes nécessaires pour résoudre une tâche augmente, l'amélioration des performances augmente également. Cela montre que dans les tâches à plusieurs étapes, l'augmentation du nombre d'agents peut aider le modèle à mieux gérer chaque étape, améliorant ainsi les performances globales de résolution des tâches.
Probabilité préalable : plus la probabilité préalable de la bonne réponse est élevée, plus l'amélioration des performances est importante. Cela signifie que l’augmentation du nombre d’agents est plus susceptible de conduire à des améliorations significatives des performances lorsque la bonne réponse est plus probable.
- Nœuds : étapes, lignes pointillées : étapes alternatives possibles. Profondeur des nœuds : nombre de pas, intensité des couleurs : niveau de difficulté inhérent. L'illustration aide le lecteur à comprendre comment la complexité des tâches est mesurée selon ces dimensions.
Sur cette base, l'article propose deux stratégies d'optimisation pour améliorer encore l'efficacité de la méthode :
Échantillonnage et vote par étapes : cette méthode divise la tâche en étapes et appliquez l’échantillonnage et le vote à chaque étape pour réduire les erreurs cumulées et améliorer les performances globales.
Échantillonnage et vote hiérarchiques : cette méthode décompose les tâches à faible probabilité en plusieurs sous-tâches à haute probabilité et les résout hiérarchiquement, différents modèles peuvent être utilisés pour gérer des sous-tâches avec des tâches à probabilités différentes afin de réduire les coûts. .
- Enfin, des orientations de travail futures sont proposées, notamment l'optimisation de l'étape d'échantillonnage pour réduire les coûts, et la poursuite du développement de mécanismes pertinents pour atténuer les effets négatifs potentiels des hallucinations LLM (hallucinations) afin de garantir que le déploiement de ces modèles puissants est à la fois responsable et serviable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!