Maison >Périphériques technologiques >IA >Benchmark Swe-Lancer d'Openai

Benchmark Swe-Lancer d'Openai

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌original
2025-03-04 09:15:11922parcourir

L'établissement de références qui reproduisent fidèlement les tâches du monde réel est essentielle dans le domaine en développement rapide de l'intelligence artificielle, en particulier dans le domaine de l'ingénierie logicielle. Samuel Miserendino et Associates ont développé la référence Swe-Lancer pour évaluer à quel point les modèles de langage grand (LLM) effectuent des tâches d'ingénierie logicielle indépendantes. Plus de 1 400 emplois totalisant 1 million USD ont été prélevés sur Upwork pour créer cette référence, qui est destinée à évaluer les tâches de gestion et de contributeur individuel (IC).

Table des matières

  • Qu'est-ce que Swe-Lancer Benchmark?
    • Les fonctionnalités de Swe-Lancer
    • Pourquoi Swe-Lancer est-il important?
  • Évaluation Metrics
    • Exemple Tasks
    • Contributeur individuel (IC) (IC) Softoral (SWEED) Tâches
    • tâches de gestion SWE
  • Performance du modèle
    • Métriques de performance
    • Résultat
  • Limites de Swe-Lancer
  • Travaux futurs
  • Conclusion
Qu'est-ce que Swe-Lancer Benchmark?

Swe-lancer englobe une gamme diversifiée de tâches, des simples corrections de bogues aux implémentations de fonctionnalités complexes. La référence est structurée pour fournir une évaluation réaliste des LLM en utilisant des tests de bout en bout qui reflètent le processus d'examen indépendant réel. Les tâches sont classées par des ingénieurs logiciels expérimentés, garantissant un niveau d'évaluation élevé.

Caractéristiques de Swe-Lancer

  • les paiements du monde réel : Les tâches de Swe-lancer représentent des paiements réels aux ingénieurs indépendants, fournissant un gradient de difficulté naturel.
  • Évaluation de la gestion : La référence choisit les meilleurs plans de mise en œuvre des entrepreneurs indépendants en évaluant la capacité des modèles à servir de leads techniques.
  • Ingénierie avancée de la file complète : En raison de la complexité de l'ingénierie logicielle du monde réel, les tâches nécessitent une compréhension approfondie du développement frontal et back-end.
  • Meilleur classement via des tests de bout en bout : Swe-Lancer utilise des tests de bout en bout développés par des ingénieurs qualifiés, fournissant une évaluation plus approfondie que les repères antérieurs qui dépendaient des tests unitaires.
Pourquoi Swe-Lancer est-il important?

Une lacune cruciale dans la recherche sur l'IA est comblée par le lancement de Swe-Lancer: la capacité d'évaluer les modèles sur les tâches qui reproduisent les subtilités des travaux de réels de génie logiciel. Le caractère multidimensionnel des projets du monde réel ne se reflète pas adéquatement par les normes précédentes, qui se concentraient fréquemment sur des tâches discrètes. Swe-Lancer offre une évaluation plus réaliste des performances du modèle en utilisant des travaux indépendants réels.

Métriques d'évaluation

Les performances des modèles sont évaluées en fonction du pourcentage de tâches résolues et du paiement total gagné. La valeur économique associée à chaque tâche reflète la véritable difficulté et la complexité des travaux impliqués.

Exemples de tâches

  • 250 $ Amélioration de la fiabilité : Fixation d'un appel API déclenché à double.
  • 1 000 $ corrects de bug : résolution des divergences des autorisations.
  • 16 000 $ Implémentation des fonctionnalités : Ajout de la prise en charge de la lecture vidéo dans l'application sur plusieurs plates-formes.

L'ensemble de données Swe-Lancer contient 1 488 tâches d'ingénierie logicielle indépendante du monde réel, tirées du référentiel open-source et publié à l'origine sur UpWork. Ces tâches, avec une valeur combinée de 1 million de dollars USD, sont classées en deux groupes:

Tâches individuelles de l'ingénierie logicielle (IC) (SWE)

Cet ensemble de données se compose de 764 tâches d'ingénierie logicielle, d'une valeur totale de 414 775 $, conçu pour représenter le travail des ingénieurs logiciels de contributeurs individuels. Ces tâches impliquent des tâches IC typiques telles que la mise en œuvre de nouvelles fonctionnalités et la correction des bogues. Pour chaque tâche, un modèle est fourni avec:

  • Une description détaillée du problème, y compris les étapes de reproduction et le comportement souhaité.
  • un point de contrôle de base de code représentant l'état avant le problème est résolu.
  • l'objectif de résoudre le problème.

La solution proposée par le modèle (un correctif) est évaluée en l'appliquant à la base de code fournie et en exécutant tous les tests de bout en bout associés à l'aide du dramaturge. De manière critique, le modèle n'a pas accès à ces tests de bout en bout pendant le processus de génération de solutions.

Benchmark Swe-Lancer d'Openai

Flux d'évaluation pour les tâches SWE IC; Le modèle ne gagne le paiement que si tous les tests applicables réussissent.

Tâches de gestion SWE

Cet ensemble de données, composé de 724 tâches d'une valeur de 585 225 $, conteste un modèle pour agir en tant que directeur de l'ingénierie logicielle. Le modèle est présenté avec une tâche d'ingénierie logicielle et doit choisir la meilleure solution parmi plusieurs options. Plus précisément, le modèle reçoit:

  • Plusieurs solutions proposées au même problème, tirées directement des discussions réelles.
  • un instantané de la base de code tel qu'il existait avant le problème a été résolu.
  • L'objectif global dans la sélection de la meilleure solution.

La solution choisie par le modèle est ensuite comparée à la meilleure solution réelle à la truth au sol pour évaluer ses performances. Surtout, une étude de validation distincte avec des ingénieurs logiciels expérimentés a confirmé un taux d'accord de 99% avec les «meilleures» solutions d'origine.

Benchmark Swe-Lancer d'Openai

Flux d'évaluation pour les tâches SWE Manager; Pendant la sélection des propositions, le modèle a la capacité de parcourir la base de code.

Lisez également: Andrej Karpathy sur des références de résolution de puzzle

Performance du modèle

La référence a été testée sur plusieurs modèles de pointe, notamment le GPT-4O, O1 et le sonnet Claude 3.5 d'Anthropic. Les résultats indiquent que si ces modèles sont prometteurs, ils ont toujours du mal avec de nombreuses tâches, en particulier celles nécessitant une compréhension et un contexte techniques profonds.

Métriques de performance

  • Claude 3.5 Sonnet : a obtenu un score de 26,2% sur les tâches SWE IC et 44,9% sur les tâches de gestion SWE, gagnant un total de 208 050 $ sur 500 800 $ possible sur l'ensemble de diamants Swe-Lancer.
  • gpt-4o : a montré des performances plus faibles, en particulier sur les tâches SWE IC, mettant en évidence les défis rencontrés par les LLM dans les applications du monde réel.
  • GPT O1 Modèle : a montré une performance moyenne gagnée plus de 380 $ et a mieux fonctionné que 4O.

Benchmark Swe-Lancer d'Openai

Les paiements totaux gagnés par chaque modèle sur l'ensemble de données SWE-Lancer complet, y compris les tâches IC SWE et SWE Manager.

Résultat

Ce tableau montre les performances de différents modèles de langage (GPT-4, O1, 3.5 Sonnet) sur l'ensemble de données SWE-LANCER, décomposé par le type de tâche (IC SWE, SWE Manager) et la taille de l'ensemble de données (Diamond, Full). Il compare leur précision «pass @ 1» (à quelle fréquence la solution générée la plus élevée est correcte) et les bénéfices (en fonction de la valeur de la tâche). La colonne «Tool utilisateur» indique si le modèle avait accès à des outils externes. «L'effort de raisonnement» reflète le niveau d'effort autorisé pour la génération de solutions. Dans l'ensemble, 3,5 Sonnet obtient généralement la précision et les revenus les plus élevés de la passe @ 1 entre différents types de tâches et tailles d'ensemble de données, tandis que l'utilisation d'outils externes et l'augmentation des efforts de raisonnement ont tendance à améliorer les performances. La mise en évidence bleu et vert met en valeur respectivement les mesures globales et de base.

Benchmark Swe-Lancer d'Openai

Le tableau affiche des mesures de performance, en particulier la précision et les revenus de «passer @ 1». Les mesures globales pour les ensembles de diamant et de swe-lancer sont mises en évidence en bleu, tandis que les performances de base pour les sous-ensembles IC SWE (Diamond) et SWE Manager (Diamond) sont mis en évidence en vert.

Limites de Swe-lancer

swe-lancer, bien que précieux, a plusieurs limites:

  • Diversité des référentiels et tâches : Les tâches provenaient uniquement de UPWORK et du référentiel de dépenses. Cela limite la portée de l'évaluation, en particulier les tâches d'ingénierie des infrastructures, qui sont sous-représentées.
  • Scope : Les tâches indépendantes sont souvent plus autonomes que les tâches d'ingénierie logicielle à temps plein. Bien que le référentiel de dépenses reflète l'ingénierie du monde réel, une prudence est nécessaire lors de la généralisation des résultats au-delà des contextes indépendants.
  • Modalités : L'évaluation est uniquement en texte, manquant de considération sur la façon dont les aides visuelles comme les captures d'écran ou les vidéos peuvent améliorer les performances du modèle.
  • Environnements : Les modèles ne peuvent pas poser de questions de clarification, ce qui peut entraver leur compréhension des exigences de la tâche.
  • Contamination : Le potentiel de contamination existe en raison de la nature publique des tâches. Pour garantir des évaluations précises, la navigation doit être désactivée et le filtrage post-hoc pour la tricherie est essentiel. L'analyse indique un impact sur la contamination limitée pour les tâches antérieures aux coupures de connaissances du modèle.

Travail futur

Swe-lancer présente plusieurs opportunités de recherche future:

  • Analyse économique : Les études futures pourraient étudier les impacts sociétaux des agents autonomes sur les marchés du travail et la productivité, en comparant les paiements indépendants aux coûts d'API pour l'achèvement des tâches.
  • Multimodalité : les entrées multimodales, telles que les captures d'écran et les vidéos, ne sont pas prises en charge par le cadre actuel. Les analyses futures qui incluent ces composants peuvent offrir une évaluation plus approfondie des performances du modèle dans des situations pratiques.

Vous pouvez trouver le document de recherche complet ici.

Conclusion

Swe-lancer représente une progression significative dans l'évaluation des LLM pour les tâches d'ingénierie logicielle. En incorporant des tâches indépendantes du monde réel et des normes de test rigoureuses, il fournit une évaluation plus précise des capacités du modèle. La référence facilite non seulement la recherche sur l'impact économique de l'IA en génie logiciel, mais souligne également les défis qui restent dans le déploiement de ces modèles dans des applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn