8월 9일 뉴스에 따르면 Alibaba Tongyi 팀은 기본 모델과 1.5B, 7B, 72B의 세 가지 매개변수가 있는 명령 미세 조정 모델을 포함하는 차세대 수학적 모델 Qwen2-Math를 오픈소스로 공개했습니다. Qwen2-Math는 Tongyi Qianwen 오픈 소스 대규모 언어 모델 Qwen2를 기반으로 개발되었습니다. 플래그십 모델 Qwen2-Math-72B-Instruct는 GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro 및 Llama보다 높은 점수를 받았습니다. 권위 있는 평가 세트 MATH.-3.1-405B 등은 대수학, 기하학, 계산 및 확률, 수론 등 다양한 수학 문제를 84%의 정확도로 처리하여 가장 발전된 수학 전용 모델이 됩니다.
참고: MATH 벤치마크 평가에서 Tongyi Qianwen 수학적 모델의 주력 모델인 Qwen2-Math-72B-Instruct는 GPT-4, Claude-3.5, Gemini-1.5-Pro를 능가하는 84%의 정확도를 달성했습니다. Llama-3.1과 같은 공개 및 비공개 소스 모델.Qwen2-Math 기본 모델은 Qwen2 대규모 언어 모델을 사용하여 초기화되고 신중하게 설계된 수학 관련 코퍼스에서 사전 훈련됩니다. 훈련 데이터에는 대규모의 고품질 수학 온라인 텍스트, 서적, 코드, 시험 문제가 포함됩니다. 및 Qwen2 모델 합성을 위한 수학적 사전 훈련 데이터입니다. 모든 사전 훈련 및 미세 조정 데이터 세트가 오염 제거되었습니다.
이후 R&D 팀은 모델의 지침 미세 조정 버전을 교육했습니다. 먼저 Qwen2-Math-72B를 기반으로 수학 관련 보상 모델을 교육한 다음 조밀한 보상 신호를 여부를 나타내는 이진 신호와 결합했습니다. 모델은 Learn 레이블을 사용하여 질문에 올바르게 답한 다음 거부 샘플링을 통해 SFT(감독 미세 조정) 데이터를 구성하고 마지막으로 GRPO 방법을 사용하여 SFT 모델을 기반으로 모델을 최적화합니다.
Qwen2-Math 시리즈 모델은 현재 주로 영어를 지원하는 것으로 알려졌습니다. Tongyi 팀은 곧 중국어 및 영어 이중 언어 버전을 출시할 예정이며 다국어 버전도 개발 중입니다.
Tongyi 팀은 GSM8K 및 MATH와 같은 일반적인 평가 벤치마크 외에도 다음과 같은 더욱 까다로운 시험 경쟁 테스트를 도입하여 여러 중국어 및 영어 수학 벤치마크 평가 세트에서 명령어 미세 조정 모델의 성능을 평가했습니다. 벤치마크 평가 OlympiadBench, 대학 수학 벤치마크 평가 CollegeMath, 대학 입학 시험(GaoKao), American Mathematics Invitational Competition(AIME) 2024 경쟁 문제, American Mathematics Contest(AMC) 2023 경쟁 문제, 중국어 평가에는 CMATH 평가 세트가 포함됩니다. 2024년 중국 대학 입시와 고등학교 입시 수학 문제입니다. 결국, Qwen2-Math-72B-Instruct는 매우 좋은 성능을 발휘했으며 상위 10개 평가에서 다른 오픈 소스 수학적 모델을 훨씬 능가하는 결과를 달성했습니다.
참고: R&D 팀은 탐욕 및 RM@8 조건에서 모델을 평가했습니다. 표에는 첫 번째 답변 점수인 각 Qwen2-Math-72B-Instruct 모델에 대한 세 가지 점수 결과가 나열되어 있습니다(아래 첨자 번호 없음). 8개의 답변 중 가장 많이 나타나는 답변의 점수와 8개의 답변 중 보상 모델이 선택한 답변의 점수입니다."대형 모델이 수학 문제를 풀 수 있을까?"는 소셜 플랫폼의 화제일 뿐만 아니라 업계에서도 큰 관심을 끄는 연구 주제입니다. 고급 수학적 문제를 처리하려면 복잡한 다단계 논리적 추론 기능을 갖춘 모델이 필요합니다. Tongyi 팀은 기술 블로그를 통해 오픈 소스를 통해 "고급 수학 문제를 해결하는 데 과학계에 기여"하기를 희망하며 앞으로도 모델의 수학적 기능을 계속해서 향상시킬 것이라고 밝혔습니다.
첨부파일: Qwen2-Math 문제풀이 예시
위 내용은 Tongyi Qianwen 오픈 소스 Qwen2-Math, 가장 발전된 수학 관련 모델이 됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!