>  기사  >  기술 주변기기  >  이전 세대 '스카이락'보다 19% 향상된 빈백 라지 모델의 평가 결과가 공개됐다.

이전 세대 '스카이락'보다 19% 향상된 빈백 라지 모델의 평가 결과가 공개됐다.

王林
王林원래의
2024-06-06 13:45:41321검색

최근 화산엔진 파워컨퍼런스에서 대형 빈백 모델이 정식 출시됐습니다. 대형 모델의 가격 인하 추세가 초저가로 추진되는 가운데, 두바오의 모델 역량도 업계의 주목을 받고 있다.

화산 엔진 제품 정보에서 Doubao 모델 팀은 MMLU, BBH, GSM8K, HumanEval 등 11개 주류 산업의 공개 평가 세트에 대한 1단계 내부 테스트 결과 중 일부를 공개했습니다. -pro-4k의 종합 점수는 76.8점으로, 이전 세대 모델 스카이락2의 64.5점 대비 19% 증가한 수치이다. 이는 같은 기간 테스트된 다른 국산 모델보다 나은 수준이기도 하다.

본 평가는 올해 5월에 완료되었으며, 주로 Universal Model Pro, Skylark2 및 9개의 국내 대형 언어 모델이 포함되었습니다. Skylark2를 제외한 나머지 모델들은 다양한 제조사에서 출시한 최신 Advanced 버전으로 API 호출을 통해 테스트를 거쳤습니다.

이전 세대 스카이락보다 19% 향상된 빈백 라지 모델의 평가 결과가 공개됐다.

사진: Doubao 모델팀 내부 테스트 결과

평가 결과에 따르면 Doubao는 두 가지 평가 세트 "HumanEval"과 "MBPP"에서 이전 세대 모델 대비 50% 향상되었습니다. 코드 역량 평가에서 Doubao는 각각 33%, 24%의 성능 향상을 달성했으며, 국내 모델 중 최고 점수를 받았습니다.

수학적 능력, 언어 이해 능력, 종합 평가 세트인 BCMMLU와 CEval 외에도 좋은 성능을 가지고 있습니다. 득점 부문에서는 3위 안에 든다. 11개 공개 평가 세트의 테스트 결과를 바탕으로 Doubao Universal Model-pro는 총점 76.8점을 받았습니다. OpenAI가 공개한 테스트 결과에 따르면 GPT-4는 이들 평가 세트에서 총점 80.1점으로 여전히 국내 모델에 비해 확실한 우위를 점하고 있다.

빈백 모델은 5월 15일 출시된 지 얼마 되지 않아 아직 제3자 기관의 테스트에는 포함되지 않은 것으로 알려졌습니다. 향후 1~2개월 내에 많은 제3자 평가기관에서 이 모델의 평가 결과를 점차 공개할 것으로 예상된다. 모델과 동명인 AI 비서 '두바오(Doubao)'는 월간 활성 사용자 수가 2600만 명에 달했다고 공식 발표했으며, 사용자들은 이를 자유롭게 체험하고 테스트할 수 있다.

이전에 Zhiyuan Research Institute는 전 세계 91개 언어 모델을 다루는 평가 보고서를 발표했습니다. 중국어 능력을 중심으로 한 주관적 평가에서는 스카이락2가 1위를 차지했으며, 중국어 능력은 GPT-4를 능가한다.

이전 세대 스카이락보다 19% 향상된 빈백 라지 모델의 평가 결과가 공개됐다.

사진: 즈위안 연구소 언어 모델 평가 결과(모델은 420일 이전 버전입니다)

위 내용은 이전 세대 '스카이락'보다 19% 향상된 빈백 라지 모델의 평가 결과가 공개됐다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.