>기술 주변기기 >일체 포함 >OpenAi의 SWE-Lancer 벤치 마크

OpenAi의 SWE-Lancer 벤치 마크

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌원래의
2025-03-04 09:15:11919검색
실제 작업을 충실하게 복제하는 벤치 마크의 확립은 빠르게 발전하는 인공 지능 분야, 특히 소프트웨어 엔지니어링 영역에서 필수적입니다. Samuel Miserendino와 Associates는 SWE-Lancer 벤치 마크를 개발하여 LLMS (Large Language Models)가 프리랜서 소프트웨어 엔지니어링 작업을 수행하는 방법을 평가했습니다. 이 벤치 마크를 만들기 위해 총 1 백만 달러가 넘는 1,400 개 이상의 일자리가 UPWork에서 가져 왔습니다.이 벤치 마크를 만들었습니다. 목차 swe-lancer의 특징

왜 Swe-lancer의 특징은 왜 Swe-lancer가 중요한가?

  • 평가 지표 ic
  • SWE Management Tasks
모델 성능
    • 성능 메트릭
    • 결과
  • SWE-LANCER 결론 SWE-LANCER 벤치 마크 란 무엇입니까? swe-lancer는 간단한 버그 수정에서 복잡한 기능 구현에 이르기까지 다양한 작업을 포함합니다. 벤치 마크는 실제 프리랜서 검토 프로세스를 반영하는 엔드 투 엔드 테스트를 사용하여 LLM의 현실적인 평가를 제공하도록 구성되어 있습니다. 이 작업은 숙련 된 소프트웨어 엔지니어가 등급을 매기고 높은 수준의 평가를 보장합니다. SWE-LANCER의 특징
  • 실제 지불금
      : SWE-Lancer의 작업은 프리랜서 엔지니어에게 실제 지불금을 나타내어 자연스러운 어려움 구배를 제공합니다.
    • 관리 평가
    • : 벤치 마크는 기술 리드 역할을 수행 할 수있는 모델의 용량을 평가하여 독립 계약자로부터 최상의 구현 계획을 선택합니다.
    • 고급 풀 스택 엔지니어링 : 실제 소프트웨어 엔지니어링의 복잡성으로 인해 작업은 프론트 엔드 및 백엔드 개발에 대한 철저한 이해가 필요합니다.
  • 엔드 투 엔드 테스트를 통한 더 나은 등급 : SWE-Lancer는 자격을 갖춘 엔지니어가 개발 한 엔드 투 엔드 테스트를 사용하여 단위 테스트에 의존하는 이전 벤치 마크보다 더 철저한 평가를 제공합니다.
  • 왜 Swe-Lancer가 중요한가? AI 연구의 중요한 격차는 SWE-Lancer의 출시에 의해 채워집니다 : 실제 소프트웨어 엔지니어링 작업의 복잡성을 복제하는 작업에 대한 모델을 평가할 수있는 능력. 실제 프로젝트의 다차원 적 특성은 이전 표준에 의해 적절하게 반영되지 않으며, 이는 종종 개별 작업에 집중되어 있습니다. SWE-Lancer는 실제 프리랜서 작업을 활용하여 모델 성능에 대한보다 현실적인 평가를 제공합니다. 평가 지표 모델의 성능은 해결 된 작업의 백분율과 총 지불금을받은 것에 따라 평가됩니다. 각 작업과 관련된 경제적 가치는 관련된 작업의 진정한 어려움과 복잡성을 반영합니다. 예제 작업

    $ 250 신뢰성 개선

    : 이중 트리거 API 호출 수정

    $ 1,000 버그 수정 : 권한 해결 불일치.

    $ 16,000 기능 구현

    : 여러 플랫폼에서 인앱 비디오 재생 지원 추가.
      SWE-LANCER 데이터 세트에는 1,488 개의 실제 프리랜서 소프트웨어 엔지니어링 작업이 포함되어 있으며 Expensify Open-Source 저장소에서 가져와 원래 Upwork에 게시되었습니다. 1 백만 달러의 USD 인이 작업은 두 그룹으로 분류됩니다. 개별 기고자 (IC) 소프트웨어 엔지니어링 (SWE) 작업
    • 이 데이터 세트는 개별 기고자 소프트웨어 엔지니어의 작업을 나타내도록 설계된 총 $ 414,775의 가치가있는 764 개의 소프트웨어 엔지니어링 작업으로 구성됩니다. 이러한 작업에는 새로운 기능 구현 및 버그 수정과 같은 일반적인 IC 업무가 포함됩니다. 각 작업에 대해 다음과 같은 모델이 제공됩니다 재생산 단계 및 원하는 동작을 포함한 문제에 대한 자세한 설명. 이전 상태를 나타내는 코드베이스 체크 포인트는 문제가 고정되어 있습니다. 문제를 해결하는 목표. 모델의 제안 된 솔루션 (패치)은 제공된 코드베이스에 적용하고 극작가를 사용하여 모든 관련 엔드 투 엔드 테스트를 실행하여 평가됩니다. 비판적으로, 모델 는 솔루션 생성 프로세스 중에 이러한 엔드 투 엔드 테스트에 액세스 할 수 없습니다.
    • IC SWE 작업에 대한 평가 흐름; 이 모델은 모든 해당 테스트가 통과하는 경우에만 지불금을받습니다. SWE 관리 작업 $ 585,225의 가치가있는 724 개의 작업으로 구성된이 데이터 세트는 소프트웨어 엔지니어링 관리자 역할을하는 모델에 도전합니다. 이 모델에는 소프트웨어 엔지니어링 작업이 제공되며 여러 옵션에서 최상의 솔루션을 선택해야합니다. 구체적으로, 모델은 다음을 받는다 :
    • 실제 토론에서 직접 가져온 동일한 문제에 대한 여러 제안 된 솔루션.
    • 코드베이스의 스냅 샷이 존재했던 문제가 해결되기 전에. 최상의 솔루션을 선택할 때 전반적인 목표.
    그런 다음 모델의 선택된 솔루션을 실제 지상 최상의 솔루션과 비교하여 성능을 평가합니다. 중요하게도, 숙련 된 소프트웨어 엔지니어와의 별도의 검증 연구는 원래 "최고의"솔루션과 99%의 계약 속도를 확인했습니다.

    SWE 관리자 작업의 평가 흐름; 제안 선택 중에 모델은 코드베이스를 탐색 할 수 있습니다.

    도 읽기 : 퍼즐 솔루션 벤치 마크에 대한 Andrej Karpathy

    모델 성능 벤치 마크는 OpenAi의 GPT-4O, O1 및 Anthropic의 Claude 3.5 Sonnet을 포함한 여러 최첨단 모델에서 테스트되었습니다. 결과는 이러한 모델이 약속을 보여 주지만 여전히 많은 작업, 특히 깊은 기술적 이해와 맥락이 필요한 작업과 함께 어려움을 겪고 있음을 나타냅니다. 성능 메트릭

    Claude 3.5 SONNET : IC SWE 작업에서 26.2%, SWE 관리 작업에서 44.9%의 점수를 얻었으며 SWE-Lancer Diamond 세트에서 가능한 $ 500,800 중 총 208,050 달러를 얻었습니다. gpt-4o : 특히 IC SWE 작업에서 성능이 낮아졌으며 실제 응용 프로그램에서 LLMS가 직면 한 문제를 강조합니다.

    gpt o1 모델 : 380 달러가 넘는 중간 성능을 보여 주었고 4o보다 더 잘 수행했습니다.

      IC SWE 및 SWE 관리자 작업을 포함하여 전체 SWE-LANCER 데이터 세트에서 각 모델에서 얻은 총 지불금.
    • 결과 이 표는 SWE-Lancer 데이터 세트에서 다양한 언어 모델 (GPT-4, O1, 3.5 SONNET)의 성능을 보여줍니다. 작업 유형 (IC SWE, SWE Manager) 및 데이터 세트 크기 (다이아몬드, 전체)별로 분류됩니다. "Pass@1"정확도 (최상위 생성 솔루션이 정확한 빈도)와 수입 (작업 값 기준)을 비교합니다. "사용자 도구"열은 모델에 외부 도구에 액세스 할 수 있는지 여부를 나타냅니다. "추론 노력"은 솔루션 생성에 허용되는 노력 수준을 반영합니다. 전반적으로 3.5 Sonnet은 일반적으로 다양한 작업 유형 및 데이터 세트 크기의 정확도와 수입이 가장 높은 패스를 달성하며 외부 도구를 사용하고 추론 노력이 증가하는 것은 성능을 향상시키는 경향이 있습니다. Blue and Green Highlighting은 각각 전체 및 기준계 메트릭을 강조합니다. 테이블에는 성능 메트릭, 특히 "Pass@1"정확도 및 수입이 표시됩니다. 다이아몬드 및 전체 SWE-Lancer 세트의 전체 메트릭은 파란색으로 강조 표시되며 IC SWE (Diamond) 및 SWE Manager (Diamond) 서브 세트의 기준 성능은 녹색으로 강조 표시됩니다. SWE-LANCER의 한계 swe-lancer는 가치가 있지만 몇 가지 제한 사항이 있습니다
        리포지토리 및 작업의 다양성
      • : 작업은 Upwork 및 Expensify Repository에서만 제공되었습니다. 이는 평가 범위, 특히 인프라 엔지니어링 작업을 제한합니다. 범위 : 프리랜서 작업은 종종 정규 소프트웨어 엔지니어링 작업보다 더 독립적입니다. Expensify Repository는 실제 엔지니어링을 반영하지만 프리랜서 컨텍스트 이상의 결과를 일반화 할 때주의가 필요합니다.
      • 양식 : 평가는 텍스트 전용이며 스크린 샷이나 비디오와 같은 시각적 보조제가 모델 성능을 향상시킬 수있는 방법에 대한 고려 사항이 부족합니다. 환경 : 모델은 명확한 질문을 할 수 없으며, 이는 작업 요구 사항에 대한 이해를 방해 할 수 있습니다. 오염
    • : 공개 작업의 특성으로 인해 오염 가능성이 존재합니다. 정확한 평가를 보장하려면 브라우징이 비활성화되어야하며 부정 행위를위한 사후 필터링이 필수적입니다. 분석은 모델 지식 컷오프를 포기하는 작업에 대한 제한된 오염 영향을 나타냅니다.
    • 미래의 작업 swe-lancer는 향후 연구를위한 몇 가지 기회를 제공합니다 : 경제 분석 : 미래의 연구는 자율 요원의 노동 시장 및 생산성에 대한 사회적 영향을 조사하여 프리랜서 지불금을 API 비용과 과제 완료에 비교할 수 있습니다.
    • 다중 분비 : 스크린 샷 및 비디오와 같은 멀티 모달 입력은 현재 프레임 워크에서 지원되지 않습니다. 이러한 구성 요소를 포함하는 향후 분석은 실제 상황에서 모델 성능에 대한보다 철저한 평가를 제공 할 수 있습니다. 여기에서 전체 연구 논문을 찾을 수 있습니다.
    • 결론 SWE-LANCER는 소프트웨어 엔지니어링 작업을위한 LLMS 평가에서 상당한 발전을 나타냅니다. 실제 프리랜서 작업과 엄격한 테스트 표준을 통합함으로써 모델 기능에 대한보다 정확한 평가를 제공합니다. 이 벤치 마크는 소프트웨어 엔지니어링에서 AI의 경제적 영향에 대한 연구를 촉진 할뿐만 아니라 실제 응용 프로그램에 이러한 모델을 배포하는 데있어 남은 문제를 강조합니다.
  • 위 내용은 OpenAi의 SWE-Lancer 벤치 마크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명:
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.