UC Berkeley의 Novasky 팀은 AI 세계에서 획기적인 업적을 달성하여 Sky-T1-32B-Prreview를 공개했습니다. 이 모델은 GPT-4 및 O1과 같은 주요 상업용 모델의 성능을 경쟁하지만 교육 비용은 450 달러 미만이었습니다. 이것은 일반적으로 그러한 고급 AI 개발과 관련된 수백만 달러 예산을 극적으로 약화시킵니다.
Sky-T1-32B-PREVIEW를 구별하는 것은 무엇입니까?
엄격한 데이터 큐 레이션 :
효율적인 교육 : 팀은 준비된 데이터 세트를 사용하여 오픈 소스 QWEN-2.5-32B 모델을 미세 조정했습니다. 8 개의 고급 GPU에서 단 19 시간 만에 완료된 교육 과정은 접근 방식의 효율성을 강조합니다.
수학 : AMAME에서 82.4% 정확도를 달성했으며 AIME2024에서 43.3%, 최고 상업용 모델과의 경쟁.
주요 결과 :
실험에서 32b 매개 변수 모델이 고급 추론 기능을 달성하기위한 최적의 크기임을 보여주었습니다.
오픈 소스 추론의 미래 :
균형 훈련 데이터 :
Sky-T1-32B-Prreview의 성능은 다양한 벤치 마크에서 예외적입니다
[코드 링크]
[기술 보고서]
<s s> [모델 가중치]
</s><p>
<strong> 결론 : </strong>
Novasky의 업적은 비싸고 폐쇄 소스 AI 개발의 확립 된 패러다임에 도전합니다. 고성능 모델이 저렴하고 공개적으로 만들어 질 수 있음을 입증함으로써 최첨단 AI 기술에 대한 접근을 민주화하고보다 포괄적이고 협력적인 연구 환경을 조성하고 있습니다.</p>
위 내용은 Sky-T1 : GPT-4O 및 Deepseek V3에 도전하는 $ 450 llm의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!