>  기사  >  기술 주변기기  >  Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

王林
王林원래의
2024-06-07 12:36:29572검색

중국의 대규모 모델 스타트업 OpenCSG가 출시한 StarShip CodeGen Agent가 혁신을 통해 Prince WEBench(대형 모델의 Real Independent Program Evaluation of Large Models) 순위에서 세계 2위를 달성했습니다. 동시에 GPT-4o 모델을 기반으로 최고기록(SOTA)을 생성했다. (단어 수: 37)

SWEBench 평가는 실제 프로그래밍 시나리오와 매우 유사하며 매우 어렵습니다. 이를 위해서는 모델이 요구 사항을 이해하고 여러 함수/클래스 간의 변경 사항을 조정해야 할 뿐만 아니라 모델이 실행과 상호 작용해야 합니다. 환경을 관리하고 매우 긴 컨텍스트를 처리하며 기존 코드 생성 작업을 뛰어 넘는 복잡한 논리적 추론을 수행합니다. 이 어려운 실제 테스트에서 업계에서 가장 발전된 GPT4와 Devin은 1.74%와 13.86%의 문제만 해결할 수 있습니다. OpenCSG의 이러한 성과는 국내 기업이 보다 실용적이고 지능적이며 자율적인 방향으로 언어 모델 개발을 촉진하는 데 있어서 선도적인 조치를 취한 것입니다.

Devin - 대형 모델 프로그래밍의 혁신

2024년 3월, 최초의 AI 소프트웨어 엔지니어인 Devin의 등장은 기술 세계 전체를 뒤흔들었습니다. 일련의 논란이 수반되지만 Devin의 강력한 혁신 역량과 엄청난 잠재력은 많은 AI 애호가와 실무자에게 새로운 기대를 불러일으켰습니다. Devin은 코딩 작업을 쉽게 해결할 수 있을 뿐만 아니라 웹 사이트 구축, 독립적인 버그 찾기 및 수정, AI 모델 교육 및 미세 조정 등을 포함하되 이에 국한되지 않고 프로젝트 계획부터 배포까지 전체 소프트웨어 개발 주기를 독립적으로 완료할 수 있습니다.

대형 모델 프로그래밍의 진짜 도전

데빈은 왜 감히 GPT4와 같은 기본 모델의 프로그래밍 능력에 도전할까요? 핵심은 소프트웨어 엔지니어가 코드를 작성할 뿐만 아니라 요구 사항 이해, 코드 해석, 프로그래밍 계획, 코드 생성, 디버깅 및 예외 복구 등도 포함한다는 것입니다. 여기의 각 링크는 대규모 모델 프로그래밍의 유용성과 효과에 영향을 미칩니다.

이러한 실제 시나리오를 위해 프린스턴 대학에서는 엔드투엔드 코드 생성 기능을 정량적으로 평가하는 도구인 SWEBench(https://arxiv.org/abs/2310.06770)를 제안했습니다. SWEBench에서 GPT-4의 점수는 1.74%에 불과하며 RAG 기술을 사용해도 점수가 3%를 넘지 않습니다. 이는 기본 모델에만 의존하여 실제 프로그래밍 문제를 직접 해결하는 것이 불가능함을 보여줍니다.

Devin의 기술 혁신은 에이전트 기반 워크플로우 구축을 기반으로 하며, 이는 SWEBench의 솔루션 속도를 새로운 차원으로 끌어올립니다. 3월에는 Devin이 단독으로 해결한 문제 해결률 13.86%로 1위에 올랐으며, 이는 "대형 모델 프로그래밍"을 거의 사용할 수 없는 상태에서 "오늘의 빛을 보는" 상태로 직접적으로 개선했습니다. 실리콘밸리의 주요 기업과 대형 모델 스타트업에서 SE를 위한 LLM을 채용하고 있으며, 이 기록은 지속적으로 수정되고 있습니다. 2024년 4월 말 기준 아마존 AI팀이 출시한 아마존 Q 개발자 에이전트(Amazon Q Developer Agent)가 20.33%로 최고 기록을 세웠다. 아쉽게도 기본 모델 명단에 오른 중국 기업의 '백송이 꽃 피우기'에 비하면, 이번 OpenCSG가 이 기록을 수정하기 전까지 중국 기업은 이 어려운 도전에 거의 참여하지 않았다.

중국 스타트업의 돌파구

최근 SWEBench 최신 평가 결과가 업데이트됐다. 회사가 출시한 OpenCSG StarShip CodeGen Agent가 Lite 평가에서 23.67%의 합격률을 기록했다. 이 성과는 Devin과 Amazon의 결과를 능가했을 뿐만 아니라 혁신적인 GPT4-o 기본 모델의 역사적 기록(SOTA)을 세웠습니다.

Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

OpenCSG는 설립된 지 1년밖에 되지 않았습니다. 오픈 소스 및 대규모 모델 합성에 대한 깊은 경험을 가진 팀입니다. CEO Chen Ran은 오픈 소스 소프트웨어 분야에서 잘 알려진 기업가이며 많은 것을 성공적으로 구축했습니다. 오픈 소스 분야의 상업 기업 CTO인 Wang Wei는 2005년 Tsinghua University의 Yao Class 출신이며 인공 지능 분야에서 다년간의 R&D 경험을 보유하고 있습니다. 또한 회사의 핵심 R&D 팀은 Tsinghua University, Peking University, 와튼(Wharton), 홍콩과기대 및 기타 대학. 그런 팀은 어떻게 새로운 기록을 만들어 내는 걸까요?

신기록, 모델+AgentWorking together

현재 많은 기업들이 기본 모델, 수직 도메인 모델, RAG 및 기타 기술을 적극적으로 탐구하고 실천하고 있는 반면, OpenCSG는 프로그래밍에 전념하는 집중 방향을 선택했습니다. 에이전트 대규모 모델 알고리즘의 혁신적인 개발 및 심층 최적화.

Agent레벨: LLM+RAG 또는 일반 에이전트 프레임워크와는 달리 OpenCSG StarShip CodeGen 에이전트는 소프트웨어 연구 및 개발 분야에서 고도로 맞춤화되고 최적화된 에이전트를 위해 설계되었습니다. 연구 및 개발의 모든 단계를 통합합니다(요구 사항 이해 , 코드 검색, 프로그래밍 계획 및 코드 작성, 루프 검증 등)을 LLM Agent를 통해 구현하고 AST 구문 분석, 종속성 검색 등의 소프트웨어 엔지니어링 방법과 결합하여 심층적인 최적화를 위해 노력합니다. 모든 링크에서 탁월한 성능을 발휘하고 최종적으로 통합을 통해 더 높은 정밀도의 코드 생성을 달성합니다.

알고리즘 수준: 코드 버전 변경으로 인한 API 충돌과 같은 일반적인 문제에 대응하여 OpenCSG는 교사 모델을 통해 코드 버전 변경 기록을 분석하여 고품질 프로그래밍 데이터를 생성하고 이를 활용하는 적응형 교사 모델을 제안합니다. 기본 모델의 생성 효과를 향상시킵니다. 평가에 따르면 이러한 혁신으로 인한 개선 사항은 특히 API 구조가 자주 업데이트되는 인기 있는 프로젝트 시나리오에서 현재 RAG 모델보다 훨씬 더 좋습니다. 본 부분의 관련 결과는 논문으로 작성되어 국제학술대회에 제출되었습니다.

OpenCSG CodeGen 에이전트가 다른 모델보다 돋보일 수 있는 것은 바로 이 알고리즘 + 엔지니어링 및 지속적인 개선 모델입니다.

StarShip의 별바다

CodeGen Agent의 실제 평가가 작은 테스트라면 StarShip은 OpenCSG의 원대한 청사진을 담고 있습니다. StarShip의 제품 포지셔닝과 관련하여 OpenCSG CEO Chen Ran은 다음과 같이 말했습니다. "StarShip은 대형 모델을 통해 소프트웨어 개발을 재구성하려는 우리의 비전을 담고 있습니다. 사용자는 StarShip에 내장된 에이전트를 통해 자신의 디지털 직원 팀을 구성합니다. CodeGen 에이전트는 플랫폼에 내장되어 있습니다. CodeReview를 포함한 디지털 프로그래머 에이전트 코드 검토자 및 CodeSearch 코드 질문 및 답변 엔지니어는 현재 출시되었습니다. 코드 지원 도구와 달리 이러한 디지털 직원은 향후 모든 측면을 포괄적으로 다루면서 수동 지원 개입 없이 직접 작업할 수 있기를 바랍니다.

CTO Wang Wei는 이 길은 도전으로 가득 차 있지만 매우 흥미롭다고 말했습니다. “첫 번째 원칙에서는 대형 모델이 생산성을 향상시킬 수 있다는 것이 더 이상 문제가 되지 않습니다. '예' 또는 '아니요'이지만 언제, 어디서, 어떤 형태로 제공하려는 대답은 StarShip입니다."

StarShip 외에도 OpenCSG 팀도 꽤 생산적입니다. CSGHub 오픈 소스 모델 플랫폼, wukong 사전 훈련 모델, CSGCoder 미세 조정 코드 모델 등 이러한 제품은 업계에서 정확한 위치에 있으며 호평을 받고 있습니다.

Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.이러한 제품의 신속한 출시와 반복은 시장 수요를 충족할 뿐만 아니라 대형 모델을 통해 모든 기업의 모든 사람에게 역량을 부여한다는 공통 목표를 달성합니다. "대형 모델이 모든 기업과 모든 사람에게 힘을 실어주려면 물과 전기와 같은 대형 모델을 만들어야 합니다. 대형 모델이 전기 에너지라면 CSGHub는 전력망이고 StarShip은 다양한 가전제품입니다. 궁극적으로 Empowering 수천 가구.”

오픈 소스를 수용하고 오픈 소스를 넘어

OpenCSG의 개념은 오픈 소스를 핵심으로 주장하는 회사로, 모델과 코드의 오픈 소스를 실현할 뿐만 아니라, 뿐만 아니라 플랫폼을 오픈 소스로 만듭니다.

"저희는 젊은 회사입니다. 오픈소스의 이점을 활용하면 더 짧은 시간 내에 어떤 결과를 얻을 수 있습니다. 동시에 오픈소스 커뮤니티에 전액 환원하겠습니다. 이것이 오픈소스의 기본 원칙입니다. 또한 저는 Sam의 의견에 매우 동의합니다. Altman에 따르면 오픈 소스는 단지 모델일 뿐이며 모델보다 제품 가치가 더 중요합니다."라고 CTO인 Wang Wei는 결론지었습니다.

“벤치마크 자체는 숫자에 불과합니다. GPT4-o 출시로 SWEBench의 테스트 점수는 곧 30%를 넘을 것으로 예상되며, 내년에는 낙관적인 추정치도 50%를 넘을 수 있습니다. 그리고 이러한 이면의 제품 가치에 더욱 관심이 쏠립니다. 숫자: 모델 역량과 엔지니어링 기술의 향상으로 디지털 직원은 사용성에서 사용 용이성으로 양적 변화에서 질적 변화를 이끌어 다양한 산업 분야에서 포괄적인 폭발을 가져올 것입니다.”라고 Wang Wei는 설명했습니다. 빅모델 시대의 트렌드, 기업부터 개인까지 모두가 이에 대비해야 합니다.”

위 내용은 Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.