Maison >Périphériques technologiques >IA >Benchmark Swe-Lancer d'Openai
L'établissement de références qui reproduisent fidèlement les tâches du monde réel est essentielle dans le domaine en développement rapide de l'intelligence artificielle, en particulier dans le domaine de l'ingénierie logicielle. Samuel Miserendino et Associates ont développé la référence Swe-Lancer pour évaluer à quel point les modèles de langage grand (LLM) effectuent des tâches d'ingénierie logicielle indépendantes. Plus de 1 400 emplois totalisant 1 million USD ont été prélevés sur Upwork pour créer cette référence, qui est destinée à évaluer les tâches de gestion et de contributeur individuel (IC).
Caractéristiques de Swe-Lancer
Les performances des modèles sont évaluées en fonction du pourcentage de tâches résolues et du paiement total gagné. La valeur économique associée à chaque tâche reflète la véritable difficulté et la complexité des travaux impliqués.
L'ensemble de données Swe-Lancer contient 1 488 tâches d'ingénierie logicielle indépendante du monde réel, tirées du référentiel open-source et publié à l'origine sur UpWork. Ces tâches, avec une valeur combinée de 1 million de dollars USD, sont classées en deux groupes:
Cet ensemble de données se compose de 764 tâches d'ingénierie logicielle, d'une valeur totale de 414 775 $, conçu pour représenter le travail des ingénieurs logiciels de contributeurs individuels. Ces tâches impliquent des tâches IC typiques telles que la mise en œuvre de nouvelles fonctionnalités et la correction des bogues. Pour chaque tâche, un modèle est fourni avec:
La solution proposée par le modèle (un correctif) est évaluée en l'appliquant à la base de code fournie et en exécutant tous les tests de bout en bout associés à l'aide du dramaturge. De manière critique, le modèle n'a pas accès à ces tests de bout en bout pendant le processus de génération de solutions.
Flux d'évaluation pour les tâches SWE IC; Le modèle ne gagne le paiement que si tous les tests applicables réussissent.
Cet ensemble de données, composé de 724 tâches d'une valeur de 585 225 $, conteste un modèle pour agir en tant que directeur de l'ingénierie logicielle. Le modèle est présenté avec une tâche d'ingénierie logicielle et doit choisir la meilleure solution parmi plusieurs options. Plus précisément, le modèle reçoit:
La solution choisie par le modèle est ensuite comparée à la meilleure solution réelle à la truth au sol pour évaluer ses performances. Surtout, une étude de validation distincte avec des ingénieurs logiciels expérimentés a confirmé un taux d'accord de 99% avec les «meilleures» solutions d'origine.
Flux d'évaluation pour les tâches SWE Manager; Pendant la sélection des propositions, le modèle a la capacité de parcourir la base de code.
Lisez également: Andrej Karpathy sur des références de résolution de puzzle
La référence a été testée sur plusieurs modèles de pointe, notamment le GPT-4O, O1 et le sonnet Claude 3.5 d'Anthropic. Les résultats indiquent que si ces modèles sont prometteurs, ils ont toujours du mal avec de nombreuses tâches, en particulier celles nécessitant une compréhension et un contexte techniques profonds.
Les paiements totaux gagnés par chaque modèle sur l'ensemble de données SWE-Lancer complet, y compris les tâches IC SWE et SWE Manager.
Ce tableau montre les performances de différents modèles de langage (GPT-4, O1, 3.5 Sonnet) sur l'ensemble de données SWE-LANCER, décomposé par le type de tâche (IC SWE, SWE Manager) et la taille de l'ensemble de données (Diamond, Full). Il compare leur précision «pass @ 1» (à quelle fréquence la solution générée la plus élevée est correcte) et les bénéfices (en fonction de la valeur de la tâche). La colonne «Tool utilisateur» indique si le modèle avait accès à des outils externes. «L'effort de raisonnement» reflète le niveau d'effort autorisé pour la génération de solutions. Dans l'ensemble, 3,5 Sonnet obtient généralement la précision et les revenus les plus élevés de la passe @ 1 entre différents types de tâches et tailles d'ensemble de données, tandis que l'utilisation d'outils externes et l'augmentation des efforts de raisonnement ont tendance à améliorer les performances. La mise en évidence bleu et vert met en valeur respectivement les mesures globales et de base.
Le tableau affiche des mesures de performance, en particulier la précision et les revenus de «passer @ 1». Les mesures globales pour les ensembles de diamant et de swe-lancer sont mises en évidence en bleu, tandis que les performances de base pour les sous-ensembles IC SWE (Diamond) et SWE Manager (Diamond) sont mis en évidence en vert.
swe-lancer, bien que précieux, a plusieurs limites:
Swe-lancer présente plusieurs opportunités de recherche future:
Vous pouvez trouver le document de recherche complet ici.
Swe-lancer représente une progression significative dans l'évaluation des LLM pour les tâches d'ingénierie logicielle. En incorporant des tâches indépendantes du monde réel et des normes de test rigoureuses, il fournit une évaluation plus précise des capacités du modèle. La référence facilite non seulement la recherche sur l'impact économique de l'IA en génie logiciel, mais souligne également les défis qui restent dans le déploiement de ces modèles dans des applications pratiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!