Heim >Technologie-Peripheriegeräte >KI >Jenseits von Devin! Unter der Leitung von Yao Ban stellten sie einen neuen Weltrekord für die Programmierung großer Modelle auf
Jenseits von Devin! SWEBench hat einen neuen Spieler auf der Rangliste begrüßt –
StarShip CodeGen Agent, produziert vom Start-up-Unternehmen OpenCSG unter der Leitung von Yao Ban und belegte mit einer Punktzahl von 23,67 % den zweiten Platz weltweit.
Gleichzeitig wurde der höchste Rekord für Nicht-GPT-4o-Basismodelle(SOTA) aufgestellt.
Wir alle wissen, dass die SWebench-Evaluierung realen Programmierszenarien sehr nahe kommt und äußerst schwierig ist. Sie erfordert nicht nur, dass das Modell die Anforderungen versteht und Änderungen mehrerer Funktionen/Klassen und sogar Dateien koordiniert Interagieren Sie mit der Ausführungsumgebung, verarbeiten Sie extrem lange Kontexte und führen Sie komplexe logische Überlegungen für herkömmliche Codegenerierungsaufgaben durch.
In diesem schwierigen realen Test können die fortschrittlichsten GPT4 und Devin der Branche nur 1,74 % bzw. 13,86 % der Probleme lösen.
Dieser Erfolg ist ein führender Schritt auf Basis von OpenCSG, um die Entwicklung von Sprachmodellen in eine praktischere, intelligentere und autonomere Richtung zu fördern. Dieser Schritt markiert einen wichtigen Schritt inländischer Unternehmen bei der Förderung der Entwicklung von Sprachmodellanwendungen in eine praktischere, intelligentere und autonomere Richtung.
Im März 2024 erschütterte das Erscheinen von Devin, dem ersten KI-Softwareentwickler, die gesamte Technologiewelt. Obwohl es eine Reihe von Kontroversen gab, haben Devins starke Innovationsfähigkeiten und sein enormes Potenzial bei vielen KI-Enthusiasten und Praktikern neue Erwartungen geweckt. Devin verfügt über fundierte technische Fähigkeiten und umfangreiche Wissensreserven. Er ist bekannt für seine hervorragenden Algorithmen und leistungsstarken Programmierfähigkeiten. Seine Forschungsergebnisse und die entwickelte Software waren ständig bahnbrechend und innovativ und haben viele KI-Enthusiasten und -Praktiker angezogen.
Devin kann nicht nur Programmieraufgaben einfach lösen, sondern kann auch den gesamten Zyklus der Softwareentwicklung selbstständig abschließen – von der Projektplanung bis zur Bereitstellung. Dies umfasst unter anderem die Erstellung von Websites, die autonome Suche und Behebung von Fehlern, die Schulung und Feinabstimmung von KI-Modellen usw.
Warum wagt Devin es, die Programmierfähigkeiten von Basismodellen wie GPT4 in Frage zu stellen?
Der Kern besteht darin, dass Softwareentwickler nicht nur Code schreiben, sondern auch Anforderungsverständnis, Codeinterpretation, Programmierplanung, Codegenerierung, Debugging und Ausnahmereparatur usw. einbeziehen. Jeder Link hier wirkt sich auf die Benutzerfreundlichkeit und Wirkung der Programmierung großer Modelle aus.
Für solche realen Szenarien hat die Princeton University SWEBench vorgeschlagen, ein Tool zur quantitativen Bewertung der End-to-End-Codegenerierungsfähigkeiten.
Der Wert von GPT-4 auf SWEBench beträgt nur 1,74 % Selbst mit der RAG-Technologie liegt der Wert bei weniger als 3 %, was zeigt, dass es unmöglich ist, reale Programmierprobleme direkt zu lösen, indem man sich ausschließlich auf grundlegende Modelle verlässt .
Und Devins technologische Innovation basiert auf der agentenbasierten Workflow-Konstruktion, die die Lösungsrate von SWEBench auf ein neues Niveau hebt.
Im März führte Devin die Liste mit einer unabhängigen Problemlösungsrate von 13,86 % an, was die „Programmierung großer Modelle“ direkt von einem Zustand, in dem sie fast unbrauchbar war, zu einem Zustand führte, der „das Licht der Welt erblickte“. Große Unternehmen aus dem Silicon Valley und große Modell-Startups sind in den Bereich LLM für SE eingestiegen, und dieser Rekord wurde kontinuierlich neu geschrieben.
Stand Ende April 2024 liegt der beste Rekord bei 20,33 %, aufgestellt vom Amazon Q Developer Agent, der vom Amazon AI-Team gestartet wurde.
Leider haben sich chinesische Unternehmen im Vergleich zum „Hundert Blumen blühen lassen“ chinesischer Unternehmen auf der Basismodellliste selten an dieser schwierigen Herausforderung beteiligt, bis OpenCSG diesen Rekord neu geschrieben hat.
Die neuesten Bewertungsergebnisse von OpenCSG sind auf den zweiten Platz der Liste gesprungen. Der vom Unternehmen eingeführte OpenCSG StarShip CodeGen Agent erreichte bei der Lite-Bewertung eine Erfolgsquote übertraf nicht nur die Ergebnisse von Devin und Amazon.
OpenCSG (Open Expression) wurde erst vor einem Jahr gegründet. Es ist ein Unternehmen, das sich dem Aufbau einer großen ökologischen Modellgemeinschaft widmet und die vor- und nachgelagerten Unternehmensketten in der Branche der künstlichen Intelligenz zusammenbringt, um gemeinsam Lösungen bereitzustellen Werkzeugplattformen für den Einsatz großer Modelle in vertikalen Unternehmen.
Das Team verfügt über umfassende Erfahrung in den Bereichen Open Source und Large Model Compounding –
CEO Chen Ran ist ein bekannter Unternehmer im Bereich Open-Source-Software und hat viele kommerzielle Unternehmen im Open-Source-Bereich erfolgreich aufgebaut.
CTO Wang Wei kommt aus der Yao-Klasse 05 der Tsinghua-Universität und verfügt über langjährige Forschungs- und Entwicklungserfahrung im Bereich künstliche Intelligenz.
Das Kern-F&E-Team des Unternehmens vereint auch Elitestudenten der Tsinghua-Universität, der Peking-Universität, Wharton, der Hong Kong University of Science and Technology und anderen Universitäten.
Wie schafft so ein Team also einen neuen Rekord?
Derzeit erforschen und praktizieren viele Unternehmen aktiv Basismodelle, vertikale Domänenmodelle, RAG und andere Technologien, während OpenCSG die Schwerpunktrichtung gewählt hat: Der innovativen Entwicklung von Programmieragenten und der tiefgreifenden Optimierung großer Modelle gewidmet Algorithmen.
Agentenebene: Anders als LLM+RAG oder das allgemeine Agenten-Framework ist der OpenCSG StarShip CodeGen Agent für hochgradig angepasste und optimierte Agenten im Bereich der Softwareforschung und -entwicklung konzipiert: Integration aller Phasen der Forschung und Entwicklung (Anforderungsverständnis, Code). Durch LLM Agent implementiert und mit Software-Engineering-Methoden wie AST-Syntaxanalyse, Abhängigkeitsabruf usw. für eine tiefgreifende Optimierung kombiniert, streben wir nach Exzellenz in jeden Link und erreichen schließlich durch Integration eine höherpräzise Codegenerierung.
Algorithmusebene: Als Reaktion auf typische Probleme wie API-Konflikte, die durch Codeversionsänderungen verursacht werden, schlägt OpenCSG ein adaptives Lehrermodell vor, das Codeversionsänderungsdatensätze über das Lehrermodell analysiert, um hochwertige Programmierdaten zu generieren und diese zu verwenden Verbessern Sie den Generierungseffekt des Basismodells. Der Bewertung zufolge sind die durch diese Innovationen erzielten Verbesserungen deutlich besser als das aktuelle RAG-Modell, insbesondere in beliebten Projektszenarien, in denen die API-Struktur häufig aktualisiert wird. Die relevanten Ergebnisse dieses Teils wurden in Papieren zusammengefasst und auf internationalen Konferenzen eingereicht.
Es ist dieser zweigleisige Ansatz „Algorithmus + Technik“ und das Modell der kontinuierlichen Verbesserung, die es OpenCSG CodeGen Agent ermöglichen, sich von anderen Modellen abzuheben. „StarShip umfasst alle Arten von Haushaltsgeräten“
Zur Produktpositionierung von StarShip sagte Chen Ran, CEO von OpenCSG:
StarShip verkörpert unsere Vision, die Softwareentwicklung für große Modelle neu zu gestalten. Benutzer bilden über den integrierten Agenten von StarShip ihr eigenes digitales Mitarbeiterteam. CodeGen Agent ist ein in die Plattform integrierter digitaler Programmierer. Derzeit wurden der Code-Reviewer CodeReview Agent und der CodeSearch-Code-Frage- und Antwort-Ingenieur veröffentlicht. Im Gegensatz zu Codierungsunterstützungstools erwarten wir von diesen Digital Workern, dass sie direkt und unabhängig arbeiten, ohne dass menschliche Unterstützung erforderlich ist. In Zukunft werden wir weitere Arten digitaler Mitarbeiter freigeben, um alle Aspekte von Anforderungen, Design, Codierung, Tests sowie Betrieb und Wartung vollständig abzudecken.CTO Wang Wei sagte, dass dieser Weg voller Herausforderungen, aber sehr interessant sei: „Grundsätzlich ist die Verbesserung der Produktivität durch große Modelle nicht mehr eine Frage von ‚Ja‘ oder ‚Nein‘, sondern vom Wann und Wie.“ und in welcher Form ist StarShip eine Antwort, die wir zu geben versuchen? Tuning-Code. Modelleusw. Diese Produkte sind genau positioniert und werden in der Branche gut angenommen. Die schnelle Einführung und Iteration dieser Produkte erfüllt nicht nur die Marktnachfrage, sondern dient auch einem gemeinsamen Ziel: jedem in jedem Unternehmen mit großen Modellen mehr Möglichkeiten zu bieten. Damit große Modelle jedes Unternehmen und jeden Menschen stärken können, müssen wir große Modelle wie Wasser und Strom schaffen. Wenn das große Modell elektrische Energie ist, dann ist CSGHub das Stromnetz und StarShip eine Vielzahl von Haushaltsgeräten, die letztendlich Tausende von Haushalten versorgen werden.
Das Konzept von OpenCSG ist Open Source. Als Unternehmen, das auf Open Source als Kern setzt, realisiert es nicht nur Open Source-Modelle und -Code, sondern macht die Plattform auch Open Source.
CTO Wang Wei hat es so zusammengefasst: Wir sind ein junges Unternehmen, das von Open Source profitiert, sodass wir in kürzerer Zeit einige Ergebnisse erzielen können. Gleichzeitig werden wir der Open-Source-Community etwas zurückgeben Allround-Weg. Das ist das Grundprinzip der Open-Source-Community. Darüber hinaus stimme ich Sam Altmans Aussage voll und ganz zu, dass Open Source nur ein Modell ist und der Produktwert wichtiger ist als das Modell.
„Mit der Einführung von GPT4-o wird erwartet, dass die Testergebnisse von SWEBench bald 30 % überschreiten, und optimistische Schätzungen können im nächsten Jahr über 50 % liegen. Und wir legen mehr Wert auf den dahinter stehenden Produktwert Zahlen: Mit der Verbesserung der Modellfähigkeiten und der Ingenieurstechnologie werden sich digitale Mitarbeiter von quantitativen zu qualitativen Veränderungen verändern, von benutzerfreundlich zu benutzerfreundlich, was zu einem umfassenden Ausbruch in verschiedenen Branchen führen wird.“ Wang Wei erklärte: „Dies könnte etwas Neues sein.“ Ära im Kontext der großen Modellära. Große Veränderungen, von Unternehmen bis hin zu Einzelpersonen, darauf müssen wir alle vorbereitet sein.“
Das obige ist der detaillierte Inhalt vonJenseits von Devin! Unter der Leitung von Yao Ban stellten sie einen neuen Weltrekord für die Programmierung großer Modelle auf. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!