$ 1,000 버그 수정 : 권한 해결 불일치.
SWE 관리자 작업의 평가 흐름; 제안 선택 중에 모델은 코드베이스를 탐색 할 수 있습니다.
Claude 3.5 SONNET : IC SWE 작업에서 26.2%, SWE 관리 작업에서 44.9%의 점수를 얻었으며 SWE-Lancer Diamond 세트에서 가능한 $ 500,800 중 총 208,050 달러를 얻었습니다. gpt-4o : 특히 IC SWE 작업에서 성능이 낮아졌으며 실제 응용 프로그램에서 LLMS가 직면 한 문제를 강조합니다.
gpt o1 모델 : 380 달러가 넘는 중간 성능을 보여 주었고 4o보다 더 잘 수행했습니다.
위 내용은 OpenAi의 SWE-Lancer 벤치 마크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!