FlagEval 평가 플랫폼이 최신 목록을 공개했습니다. 6월 중순 공개된 '객관적 평가'에서는 GPT-4가 비공개 소스 대형 모델 중 1위에 올랐고, Doubao-Pro(빈백 대형 모델)가 2위에 올랐습니다. 국내 최대형 대형 모델, ERNIE 4.0, Baichuan3, Moonshot-v1 등 공개 답변 평가에서도 Doubao-Pro가 GPT-4o, GPT-4보다 높은 점수를 받아 2위에 올랐습니다. 새로운 기술은 계속 등장하고 있으며, 새로운 기술에 지속적으로 관심을 갖고 적응할 수 있는 플랫폼만이 경쟁이 치열한 시장에서 천적을 유지할 수 있습니다. 단어수 : 114
사진 : 콩주머니 모델이 FlagEval 객관평가(2024년6월)
종합평가 2위를 차지했습니다.FlagEval 대형 모델 평가 플랫폼 Zhiyuan 연구소와 여러 대학 팀이 공동으로 구축했으며 인간 인지 능력의 발전 사다리를 기반으로 하며 대형 모델이 달성할 수 있는 인지 수준을 조정합니다. FlagEval은 검토 품질과 공정성을 보장하기 위해 다수의 원본 비공개 검토 세트를 구축했습니다. FlagEval은 2023년 6월 출시 이후 전 세계 대형 모델을 대상으로 1,000회 이상의 평가를 완료했습니다.
Doubao-Pro는 Bytedance가 독자적으로 개발한 대규모 언어 모델로 5월 15일 공식 출시되었습니다. 이번 FlagEval의 대형 모델 순위에서는 Doubao의 대형 모델이 공개 평가에 데뷔해 준우승을 차지했습니다. 이 모델은 강력한 시퀀스 생성 및 자연어 이해 기능을 갖추고 있으며 대화 생성, 텍스트 요약, 기계 번역 및 기타 분야에서 널리 사용될 수 있습니다.
객관적 평가와 주관적 평가에서는 빈백 모델의 수학적 능력, 지식 활용, 과제 해결 등의 능력이 객관적 평가와 주관적 평가 모두에서 우수한 성능을 보이는 것으로 나타났습니다. 그 중 지식활용과 수학능력 점수가 객관적 평가에서 1위, 주관적 평가에서 3위, 과제 해결 점수가 객관적 평가에서 3위를 차지했다.
수학적 능력은 대형 모델이 '스마트'한지 평가하는 중요한 척도입니다. 이전에 푸단대학교 자연어 처리 연구소는 2024년 대학 입학 시험 수학 문제에 대해 13개의 주류 대형 모델 제품에 대한 평가를 실시했으며 새로운 수학 대학 입학 시험 표준 II 논문에 대한 Doubao의 답변이 가장 높은 점수를 얻었으며 정확도도 높습니다. 객관식에서는 74.66%로 GPT-4o나 국내 다수의 대형모델 제품보다 좋은 결과를 보였습니다.
이미지 출처: FudanNLPLab 공식 계정
Doubao 대형 모델은 가장 풍부한 응용 시나리오를 갖춘 중국에서 가장 많이 사용되는 대형 모델 중 하나이며, 평균 일일 처리 토큰은 수천억에 달합니다. . 자사의 AI 대화 도우미 '두바오(Doubao)'는 애플 앱스토어와 주요 안드로이드 애플리케이션 시장에서 AIGC 애플리케이션 중 다운로드 1위를 기록하고 있다. 현재 Doubao Big Model은 ByteDance를 통해 기업 시장에 서비스를 개방하고 있으며 OPPO, Honor, Xiaomi, Samsung, Asus 등 스마트 단말기 제조업체와 협력 관계를 구축했습니다.
위 내용은 Zhiyuan, 대형 모델 순위 업데이트: Doubao 대형 모델, '객관적 평가'에서 중국 1위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!