Maison >Périphériques technologiques >IA >Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles

王林original: 2024-06-07 12:36:29811parcourir

L'agent StarShip CodeGen lancé par OpenCSG, une startup de modélisme à grande échelle en Chine, a atteint la deuxième place mondiale dans le classement Prince WEBench (Real Independent Programming Evaluation of Large Models) grâce à l'innovation. Dans le même temps, il a créé un record le plus élevé (SOTA) basé sur le modèle GPT-4o. (Nombre de mots : 37)

L'évaluation SWEBench est très proche des scénarios de programmation réels et extrêmement difficile. Elle nécessite non seulement que le modèle comprenne les exigences et coordonne les changements entre plusieurs fonctions/classes, mais nécessite également que le modèle interagisse avec l'exécution. environnement, gérer des contextes extrêmement longs et effectuer un raisonnement logique complexe qui va bien au-delà des tâches traditionnelles de génération de code. Dans ce test réel difficile, les GPT4 et Devin les plus avancés du secteur ne peuvent résoudre que 1,74 % et 13,86 % des problèmes. Cette réalisation d'OpenCSG marque une étape majeure franchie par les entreprises nationales dans la promotion du développement de modèles linguistiques dans une direction plus pratique, intelligente et autonome.

Devin - Innovation dans la programmation de grands modèles

En mars 2024, l'émergence de Devin, le premier ingénieur logiciel en IA, a fait exploser le monde technologique tout entier. Bien que cela s'accompagne d'une série de controverses, les fortes capacités d'innovation et l'énorme potentiel de Devin ont suscité de nouvelles attentes chez de nombreux passionnés et praticiens de l'IA. Devin peut non seulement résoudre facilement les tâches de codage, mais également compléter l'ensemble du cycle de développement logiciel de manière indépendante - de la planification du projet au déploiement, y compris, mais sans s'y limiter, la création de sites Web, la recherche et la correction indépendantes de bogues, la formation et le réglage fin des modèles d'IA, etc.

Le véritable défi de la programmation de grands modèles

Pourquoi Devin ose-t-il remettre en question les capacités de programmation des modèles de base tels que GPT4 ? L'essentiel est que les ingénieurs logiciels écrivent non seulement du code, mais impliquent également la compréhension des exigences, l'interprétation du code, la planification de la programmation, la génération de code, le débogage et la réparation des exceptions, etc. Chaque lien ici affectera la convivialité et l'effet de la programmation de grands modèles.

Pour de tels scénarios réels, l'Université de Princeton a proposé SWEBench (https://arxiv.org/abs/2310.06770), qui est un outil permettant d'évaluer quantitativement les capacités de génération de code de bout en bout. Le score de GPT-4 sur SWEBench n'est que de 1,74 %. Même avec la technologie RAG, le score ne dépasse pas 3 %, ce qui montre qu'il n'est pas possible de résoudre directement des problèmes de programmation réels en s'appuyant uniquement sur des modèles de base.

L'innovation technologique de Devin est basée sur la construction de workflows basés sur des agents, ce qui élève le taux de solution de SWEBench à un nouveau niveau. En mars, Devin était en tête de liste avec un taux de résolution de problèmes de 13,86 % de manière indépendante, ce qui a directement amélioré la « programmation de grands modèles » d'un état presque inutilisable à « voir le jour ». Les grandes entreprises de la Silicon Valley et les grandes startups de marque recrutent des LLM pour SE, et cette liste a été continuellement révisée. Fin avril 2024, le meilleur record a été établi par l'Amazon Q Developer Agent lancé par l'équipe Amazon AI à 20,33 %. Malheureusement, comparées aux entreprises chinoises qui « laissent fleurir cent fleurs » sur la liste des modèles de base, les entreprises chinoises ont rarement participé à ce défi difficile jusqu'à ce que OpenCSG révise ce record.

Percées des startups chinoises

Les derniers résultats d'évaluation de SWEBench ont été récemment mis à jour. OpenCSG a grimpé à la deuxième place de la liste. L'agent OpenCSG StarShip CodeGen lancé par la société a obtenu un taux de réussite de 23,67 % dans l'évaluation Lite. Cette réalisation a non seulement dépassé les résultats de Devin et d'Amazon, mais a également établi un record historique (SOTA) pour le modèle de base révolutionnaire GPT4-o.

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles

OpenCSG n'a été créé que depuis un an. C'est une équipe avec une profonde expérience dans l'open source et la synthèse de grands modèles : le PDG Chen Ran est un entrepreneur bien connu dans le domaine des logiciels open source et a construit avec succès de nombreux projets. entreprises commerciales dans le domaine de l'open source ; le CTO Wang Wei est issu de la promotion Yao de l'Université Tsinghua de 2005 et possède de nombreuses années d'expérience en R&D dans le domaine de l'intelligence artificielle. L'équipe principale de R&D de l'entreprise rassemble également des étudiants d'élite de l'Université Tsinghua, de l'Université de Pékin, Wharton, Université des sciences et technologies de Hong Kong et d'autres universités. Comment une telle équipe crée-t-elle un nouveau record ?

Nouveau record, modèle+AgentTravailler ensemble

Actuellement, de nombreuses entreprises explorent et mettent en pratique activement des modèles de base, des modèles de domaine vertical, RAG et d'autres technologies, tandis qu'OpenCSG a choisi une direction ciblée : dédiée à la programmation Agents Développement innovant et optimisation profonde d'algorithmes de grands modèles.

AgentNiveau : Différent du LLM+RAG ou du framework général d'agent, OpenCSG StarShip CodeGen Agent est conçu pour les agents hautement personnalisés et optimisés dans le domaine de la recherche et du développement de logiciels : intégrant toutes les étapes de recherche et de développement (compréhension des exigences , récupération de code, planification et écriture de code, vérification de boucle, etc.) sont implémentés via LLM Agent et combinés avec des méthodes d'ingénierie logicielle, telles que l'analyse de la syntaxe AST, la récupération des dépendances, etc. pour une optimisation en profondeur, nous nous efforçons de l'excellence dans chaque lien, et enfin parvenir à une génération de code de plus grande précision grâce à l'intégration.

Niveau d'algorithme : En réponse aux problèmes typiques tels que les conflits d'API causés par les changements de version de code, OpenCSG propose un modèle d'enseignant adaptatif, qui analyse les enregistrements de changement de version de code via le modèle d'enseignant pour générer des données de programmation de haute qualité et les utiliser pour améliorer l'effet de génération du modèle de base. Selon l'évaluation, les améliorations apportées par ces innovations sont nettement supérieures à celles du modèle RAG actuel, en particulier dans les scénarios de projet courants où la structure de l'API est fréquemment mise à jour. Les résultats pertinents de cette partie ont été transformés en articles et soumis à des conférences internationales.

C'est cette double approche algorithme + modèle d'ingénierie et d'amélioration continue qui permet à OpenCSG CodeGen Agent de se démarquer des autres modèles. La mer d'étoiles de

StarShip

Si la véritable évaluation de CodeGen Agent est un petit test, alors StarShip porte le grand modèle d'OpenCSG. Concernant le positionnement du produit de StarShip, Chen Ran, PDG d'OpenCSG, a déclaré : « StarShip porte notre vision de remodeler le développement de logiciels avec de grands modèles. Les utilisateurs forment leurs propres équipes d'employés numériques grâce aux agents intégrés de StarShip. CodeGen Agent est intégré à la plateforme. Les programmeurs numériques, y compris actuellement Les réviseurs de code CodeReview Agent et les ingénieurs de questions et réponses de code CodeSearch sont différents des outils d'assistance au code. Nous espérons que ces employés numériques pourront travailler directement sans intervention d'assistance manuelle. Nous publierons davantage de types d'employés numériques à l'avenir, couvrant de manière exhaustive tous les aspects de. exigences, conception, codage, tests, exploitation et maintenance. »

Le directeur technique Wang Wei a déclaré que ce chemin est plein de défis mais très intéressant : « Depuis les premiers principes, les grands modèles peuvent améliorer la productivité. " ou " non ", mais une question de savoir quand, où et sous quelle forme. StarShip est la réponse que nous essayons de donner. "

En plus de StarShip, l'équipe OpenCSG est également très productive : plateforme de modèles open source CSGHub, wukong. modèle de pré-formation, modèle de code affiné CSGCoder, etc. Ces produits sont positionnés avec précision et bien accueillis dans l'industrie.

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles Le lancement et l'itération rapides de ces produits répondent non seulement à la demande du marché, mais servent également un objectif commun : donner à chacun dans chaque entreprise les moyens de disposer de grands modèles. "Pour permettre aux grands modèles d'autonomiser chaque entreprise et chaque personne, nous devons créer des grands modèles identiques à l'eau et à l'électricité. Si les grands modèles sont de l'énergie électrique, alors CSGHub est le réseau électrique et StarShip est constitué de divers appareils électroménagers. En fin de compte, l'autonomisation des milliers de foyers. "

Adoptez l'open source et allez au-delà de l'open source

Le concept d'OpenCSG est open source. En tant qu'entreprise qui insiste sur l'open source comme noyau, elle réalise non seulement l'open source de modèles et de code, mais rend également la plateforme open source.

"Nous sommes une jeune entreprise. Nous bénéficions de l'open source afin de pouvoir produire des résultats dans un délai plus court. En même temps, nous redonnerons pleinement à la communauté open source. C'est le principe de base de l'open source. communauté source. De plus, je suis tout à fait d'accord avec Sam. Selon Altman, l'open source n'est qu'un modèle et la valeur du produit est plus importante que le modèle », a conclu le CTO Wang Wei.

« Le benchmark en lui-même n'est qu'un chiffre. Avec le lancement de GPT4-o, les résultats des tests de SWEBench devraient bientôt dépasser 30 %, et les estimations optimistes pourraient dépasser 50 % l'année prochaine. Et nous accordons plus d'attention à la valeur du produit qui se cache derrière ceux-ci. chiffres : avec l'amélioration des capacités des modèles et de la technologie d'ingénierie, les employés du numérique passeront de changements quantitatifs à des changements qualitatifs, d'utilisable à facile à utiliser, ouvrant la voie à une épidémie globale dans diverses industries. " Wang Wei a expliqué : " Cela pourrait être un nouveau ère dans le contexte de l’ère des grands modèles. De grands changements, des entreprises aux individus, nous devons tous nous y préparer. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

for 循环算法人工智能 https 软件工程 bug 开源软件 gpt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Yolov10 : explication détaillée, déploiement et application en un seul endroit !Article suivant：Yolov10 : explication détaillée, déploiement et application en un seul endroit !

Articles Liés

Voir plus