Maison  >  Article  >  Périphériques technologiques  >  Au-delà de Devin ! Dirigés par Yao Ban, ils ont établi un nouveau record mondial de programmation de grands modèles

Au-delà de Devin ! Dirigés par Yao Ban, ils ont établi un nouveau record mondial de programmation de grands modèles

PHPz
PHPzoriginal
2024-06-04 12:50:00459parcourir

Au-delà de Devin ! SWEBench a accueilli un nouvel acteur dans le classement -

StarShip CodeGen Agent, produit par la start-up OpenCSG dirigée par Yao Ban, et classé deuxième mondial avec un score de 23,67%.

Dans le même temps, il a créé le record le plus élevé pour les modèles de base non GPT-4o(SOTA).

Au-delà de Devin ! Dirigés par Yao Ban, ils ont établi un nouveau record mondial de programmation de grands modèles

Nous savons tous que l'évaluation de SWebench est très proche des scénarios de programmation réels et extrêmement difficile. Elle nécessite non seulement que le modèle comprenne les exigences, coordonne les modifications de plusieurs fonctions/classes et même des fichiers, mais nécessite également que le modèle comprenne les exigences. interagissez avec l'environnement d'exécution, gérez un contexte extrêmement long et effectuez un raisonnement logique complexe pour les tâches de génération de code traditionnelles.

Dans ce test réel difficile, les GPT4 et Devin les plus avancés de l'industrie ne peuvent résoudre que 1,74 % et 13,86 % des problèmes.

Cette réalisation est une avancée majeure basée sur OpenCSG pour promouvoir le développement de modèles de langage dans une direction plus pratique, intelligente et autonome. Cette décision marque une étape importante franchie par les entreprises nationales dans la promotion du développement d'applications de modèles de langage dans une direction plus pratique, intelligente et autonome.

Dans quelle mesure la programmation de grands modèles est-elle difficile ?

En mars 2024, l'émergence de Devin, le premier ingénieur logiciel en IA, a fait exploser le monde technologique tout entier. Bien qu'accompagnées d'une série de controverses, les fortes capacités d'innovation et l'énorme potentiel de Devin ont suscité de nouvelles attentes chez de nombreux passionnés et praticiens de l'IA. Devin possède de profondes compétences techniques et de vastes réserves de connaissances. Il est connu pour ses excellents algorithmes et ses puissantes capacités de programmation. Ses résultats de recherche et les logiciels développés ont été constamment révolutionnaires et innovants, attirant de nombreux passionnés et praticiens de l'IA

Devin peut non seulement résoudre facilement les tâches de codage, mais peut également compléter de manière indépendante tout le cycle de développement logiciel - de la planification du projet au déploiement, couvrant, mais sans s'y limiter, la création de sites Web, la recherche et la correction autonomes de bugs, la formation et le réglage fin des modèles d'IA, etc.

Au-delà de Devin ! Dirigés par Yao Ban, ils ont établi un nouveau record mondial de programmation de grands modèles

Pourquoi Devin ose-t-il remettre en question les capacités de programmation de modèles basiques tels que GPT4 ?

L'essentiel est que les ingénieurs logiciels écrivent non seulement du code, mais impliquent également la compréhension des exigences, l'interprétation du code, la planification de la programmation, la génération de code, le débogage et la réparation des exceptions, etc. Chaque lien ici affectera la convivialité et l'effet de la programmation de grands modèles.

Pour de tels scénarios réels, l'Université de Princeton a proposé SWEBench, un outil permettant d'évaluer quantitativement les capacités de génération de code de bout en bout.

Le score de GPT-4 sur SWEBench n'est que de 1,74 % Même avec la technologie RAG, le score est inférieur à 3 %, ce qui montre qu'il est impossible de résoudre directement les problèmes de programmation dans le monde réel en s'appuyant uniquement sur des modèles de base. de.

Et l’innovation technologique de Devin est basée sur la construction de workflows basés sur des agents, ce qui élève le taux de solution de SWEBench à un nouveau niveau.

En mars, Devin était en tête de liste avec un taux de résolution de problèmes de 13,86 % de manière indépendante, ce qui a directement amélioré la « programmation de grands modèles » d'un état presque inutilisable à « voir le jour ». Les grandes entreprises de la Silicon Valley et les grandes startups de marque sont entrées dans le domaine du LLM pour SE, et ce record a été continuellement réécrit.

À fin avril 2024, le meilleur record est de 20,33 % établi par l'agent développeur Amazon Q lancé par l'équipe Amazon AI.

Malheureusement, comparées au « laisser fleurir cent fleurs » des entreprises chinoises figurant sur la liste des modèles de base, les entreprises chinoises ont rarement participé à ce défi difficile, jusqu'à ce qu'OpenCSG réécrive ce record.

D'une start-up chinoise

Les derniers résultats d'évaluation de SWEBench ont été mis à jour. OpenCSG est passé à la deuxième place de la liste. L'agent OpenCSG StarShip CodeGen lancé par la société a obtenu un taux de réussite de 23,67 % dans l'évaluation Lite. non seulement surpassé les résultats de Devin et d’Amazon.

OpenCSG(Open Expression) a été créée il y a seulement un an. Il s'agit d'une entreprise dédiée à la construction d'une grande communauté écologique modèle et au regroupement des chaînes d'entreprises en amont et en aval du secteur de l'intelligence artificielle pour fournir conjointement des solutions et des plateformes d'outils. pour l'application de grands modèles dans les entreprises industrielles verticales.

L'équipe possède une profonde expérience dans l'open source et la composition de grands modèles -

Le PDG Chen Ran est un entrepreneur bien connu dans le domaine des logiciels open source et a créé avec succès de nombreuses sociétés commerciales dans le domaine de l'open source.

CTO Wang Wei vient de la classe Yao 05 de l'Université Tsinghua et possède de nombreuses années d'expérience en recherche et développement dans le domaine de l'intelligence artificielle.

L'équipe principale de R&D de l'entreprise rassemble également des étudiants d'élite de l'Université Tsinghua, de l'Université de Pékin, de Wharton, de l'Université des sciences et technologies de Hong Kong et d'autres universités.

Alors comment une telle équipe peut-elle créer un nouveau record ?

Actuellement, de nombreuses entreprises explorent et mettent en pratique activement les modèles de base, les modèles de domaine vertical, RAG et d'autres technologies, tandis qu'OpenCSG a choisi l'orientation suivante : Dédié au développement innovant d'agents de programmation et à l'optimisation en profondeur des grands modèles algorithmes.

Niveau Agent : Différent du LLM+RAG ou du framework général Agent, OpenCSG StarShip CodeGen Agent est conçu pour les agents hautement personnalisés et optimisés dans le domaine de la recherche et du développement logiciel : intégrant toutes les étapes de la recherche et du développement (compréhension des exigences, code récupération, planification de la programmation, écriture de code et vérification du cycle, etc.) Mis en œuvre via LLM Agent et combiné avec des méthodes d'ingénierie logicielle, telles que l'analyse syntaxique AST, la récupération des dépendances, etc. pour une optimisation en profondeur, nous visons l'excellence dans chaque lien, et enfin obtenir une génération de code de plus grande précision grâce à l'intégration.

Niveau d'algorithme : En réponse aux problèmes typiques tels que les conflits d'API causés par les changements de version de code, OpenCSG propose un modèle d'enseignant adaptatif, qui analyse les enregistrements de changement de version de code via le modèle d'enseignant pour générer des données de programmation de haute qualité et les utiliser pour améliorer l'effet de génération du modèle de base. Selon l'évaluation, les améliorations apportées par ces innovations sont nettement supérieures à celles du modèle RAG actuel, en particulier dans les scénarios de projet courants où la structure de l'API est fréquemment mise à jour. Les résultats pertinents de cette partie ont été transformés en articles et soumis à des conférences internationales.

C'est cette double approche Algorithme + Ingénierie et ce modèle d'amélioration continue qui permet à OpenCSG CodeGen Agent de se démarquer des autres modèles.

"StarShip, c'est toutes sortes d'appareils électroménagers"

Si la véritable évaluation de CodeGen Agent est un petit test, alors StarShip porte le grand modèle d'OpenCSG.

Concernant le positionnement du produit StarShip, Chen Ran, PDG d'OpenCSG, a déclaré :

StarShip porte notre vision de remodeler le développement logiciel pour les grands modèles. Les utilisateurs forment leur propre équipe d'employés numériques grâce à l'agent intégré de StarShip. CodeGen Agent est un programmeur numérique intégré à la plate-forme. Actuellement, le réviseur de code CodeReview Agent et l'ingénieur de questions et réponses de code CodeSearch ont été publiés. Contrairement aux outils d’aide au codage, nous attendons de ces travailleurs du numérique qu’ils travaillent directement et de manière indépendante sans avoir besoin d’une intervention humaine. À l’avenir, nous publierons davantage de types d’employés numériques pour couvrir pleinement tous les aspects des exigences, de la conception, du codage, des tests, ainsi que de l’exploitation et de la maintenance.

Le CTO Wang Wei a déclaré que ce chemin est plein de défis mais très intéressant. « Depuis les premiers principes, l'amélioration de la productivité par les grands modèles n'est plus une question de « oui » ou de « non », mais de quand et où. et sous quelle forme, StarShip est une réponse que nous essayons de donner "

Au-delà de Devin ! Dirigés par Yao Ban, ils ont établi un nouveau record mondial de programmation de grands modèles

En plus de StarShip, l'équipe OpenCSG est également très productive : Plateforme de modèles open source CSGHub, modèle de pré-formation wukong, CSGCoder fine-. code de réglage. Modèles etc. Ces produits sont positionnés avec précision et bien reçus dans l'industrie.

Le lancement et l'itération rapides de ces produits répondent non seulement à la demande du marché, mais servent également un objectif commun : donner à chacun dans chaque entreprise les moyens de disposer de grands modèles.

Pour permettre aux grands modèles de responsabiliser chaque entreprise et chaque personne, nous devons créer de grands modèles comme l'eau et l'électricité. Si le grand modèle est l’énergie électrique, alors CSGHub est le réseau électrique et StarShip est une variété d’appareils électroménagers qui permettront à terme d’alimenter des milliers de foyers.

Le concept d'OpenCSG est open source. En tant qu'entreprise qui insiste sur l'open source comme noyau, elle réalise non seulement des modèles et du code open source, mais rend également la plate-forme open source.

Le CTO Wang Wei l'a résumé ainsi : Nous sommes une jeune entreprise qui bénéficie de l'open source afin de pouvoir obtenir des résultats dans un délai plus court. En même temps, nous redonnerons également à la communauté open source dans un délai plus court. manière globale. C’est le principe de base de la communauté open source. De plus, je suis tout à fait d'accord avec la déclaration de Sam Altman selon laquelle l'open source n'est qu'un modèle et la valeur du produit est plus importante que le modèle.

« Le benchmark en lui-même n'est qu'un chiffre. Avec le lancement de GPT4-o, les résultats des tests de SWEBench devraient bientôt dépasser 30 %, et les estimations optimistes pourraient dépasser 50 % l'année prochaine. Et nous accordons plus d'attention à la valeur du produit qui se cache derrière ceux-ci. chiffres : avec l'amélioration des capacités des modèles et de la technologie d'ingénierie, les employés du numérique passeront de changements quantitatifs à des changements qualitatifs, d'utilisable à facile à utiliser, ouvrant la voie à une épidémie globale dans diverses industries. " Wang Wei a expliqué : " Cela pourrait être un nouveau ère dans le contexte de l’ère des grands modèles. De grands changements, des entreprises aux individus, nous devons tous nous y préparer. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn