집 >기술 주변기기 >일체 포함 >제1회 AI 수학 올림피아드 대회 계획 발표: 우승 4개 팀 모두 국내 모델 DeepSeekMath 선택

제1회 AI 수학 올림피아드 대회 계획 발표: 우승 4개 팀 모두 국내 모델 DeepSeekMath 선택

王林원래의: 2024-07-16 18:14:571237검색

AI 수학 올림피아드 우승 모델이 나왔습니다!

며칠 전 명단 발표와 함께 세계 최초의 AI 수학올림피아드(AIMO) 진행상에 대한 논의량이 여전히 높았습니다.

총 5개 팀이 이번 대회에서 우승했습니다. Numina 팀이 1위를 차지했고, CMU_MATH가 2위를 차지했으며, 시험 후 일시적으로 3위를 차지했으며, codeinter와 Conor #2 팀이 각각 5점을 획득했습니다.

제1회 AI 수학 올림피아드 대회 계획 발표: 우승 4개 팀 모두 국내 모델 DeepSeekMath 선택

^{Tao Zhexuan은 놀랐습니다.}

당시 관계자는 수상자 명단만 발표했을 뿐, 뒤에 있는 모델에 대한 자세한 정보는 공개하지 않았습니다. 다들 궁금해하실텐데요, 우승팀은 어떤 모델을 사용했을까요?

지금, 상위 4개 AIMO Progress Awards의 모델이 발표되었습니다.

우승팀이 사용하는 모델은 deepseek-math-7b-base를 미세 조정한 버전인 NuminaMath 7B TIR입니다.

2위 팀은 두 개의 DeepSeek-Math-7B-RL 모델을 미세 조정했습니다. 하나는 정책 모델(솔루션 생성용)로, 다른 하나는 보상 모델(가중 다수 투표용) 솔루션으로 채점됩니다.

3등 역시 아무런 미세 조정 없이 DeepSeek-Math-7B-RL 모델을 사용했으며, 정해진 채점 규칙을 통해 정답을 선택하는 다수결 투표 전략을 사용했습니다.

4위 팀도 deepseek-math-7b-rl을 사용했으며 매개변수 설정 온도는 0.9, top_p는 1.0, 최대 토큰은 2048이었습니다. 코딩 도구와 결합된 이 모델은 MATH 벤치마크에서 58.8%를 달성합니다.

상위 4개 팀 모두 DeepSeekMath-7B를 기본 모델로 선택하여 좋은 결과를 얻은 것을 어렵지 않게 찾아볼 수 있습니다. 이 모델의 수학적 추론 능력은 GPT-4에 가깝고 MATH 벤치마크 목록의 30B~70B 오픈 소스 모델 수를 능가합니다.

챔피언: NuminaMath 7B TIR 모델

다음으로 이번 대회의 챔피언십 계획을 자세히 살펴보겠습니다.

NuminaMath는 TIR(Tool Integrated Reasoning)을 사용하여 수학적 문제를 해결하도록 훈련된 언어 모델 제품군입니다.

NuminaMath 7B TIR은 감독 미세 조정의 두 단계를 갖춘 deepseek-math-7b-base의 미세 조정 버전입니다.

1단계: 자연어 문제의 수학적인 대규모 모델링 및 솔루션의 기본 모델은 다양한 데이터 세트에서 미세 조정되며, 각 솔루션은 추론을 용이하게 하기 위해 CoT(생각의 사슬)를 사용하여 템플릿화됩니다.

2단계: TIR(Tool Integrated Reasoning)의 합성 데이터 세트에서 1단계에서 얻은 모델을 미세 조정합니다. 여기서 각 수학적 문제는 일련의 기본 원리, Python 프로그램 및 해당 출력으로 분류됩니다. 그러면 GPT-4가 코드 실행 피드백이 포함된 ToRA 형식(Microsoft) 솔루션을 생성하라는 메시지가 표시됩니다. 이 데이터를 미세 조정하면 자연어 추론을 결합하고 Python REPL을 사용하여 중간 결과를 계산함으로써 수학적 문제를 해결할 수 있는 추론 에이전트가 생성됩니다.

NuminaMath 7B TIR이 경쟁 수준의 수학 문제를 해결하기 위해 특별히 제작되었다는 점은 주목할 가치가 있습니다. 따라서 이 모델은 일반 채팅 애플리케이션에 사용하면 안 됩니다. 탐욕스러운 디코딩을 사용하여 우승 팀은 모델이 AMC 레벨 12 문제를 해결할 수 있지만 일반적으로 어려운 AIME 및 Math Olympiad 레벨 문제에 대한 효율적인 솔루션을 생성하는 데 어려움을 겪었습니다. 이 모델은 또한 제한된 용량과 비전과 같은 양식의 부족으로 인해 기하학적 문제를 해결하는 데 어려움을 겪고 있습니다.

위 내용은 제1회 AI 수학 올림피아드 대회 계획 발표: 우승 4개 팀 모두 국내 모델 DeepSeekMath 선택의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python math https gpt prompt

성명：