중국 AI는 Depseek-V3 및 Qwen 2.5와 같은 비용 효율적인 오픈 소스 대안으로 GPT-4, Claude 및 Grok과 같은 주요 모델에 도전하고 있습니다. 이러한 모델은 효율성, 접근성 및 강력한 성능으로 인해 뛰어납니다. 많은 사람들이 허용되는 상업 라이센스 하에서 운영하여 개발자와 비즈니스에 대한 호소력을 넓 힙니다.
이 그룹에 가장 최근에 추가 된 Minimax-Text-01은 전례없는 4 백만 개의 토큰 컨텍스트 길이로 새로운 표준을 설정하여 일반적인 128K-256K 토큰 한도를 뛰어 넘습니다. 이 확장 된 컨텍스트 기능은 효율성을위한 하이브리드주의 아키텍처 및 오픈 소스, 상업적으로 허용되는 라이센스와 결합하여 높은 비용없이 혁신을 촉진합니다.
Minimax-Text-01의 기능을 탐구합시다
목차
하이브리드 아키텍처
Experts 혼합물 (MOE) 전략
훈련 및 스케일링 전략
교육 후 최적화
핵심 혁신
핵심 학문 벤치 마크
일반 작업 벤치 마크
추론 작업 벤치 마크
수학 및 코딩 작업 벤치 마크
minimax-text-01 로 시작하는 것
중요한 링크
결론
-
하이브리드 아키텍처
minimax-text-01은 번개주의, 소프트 맥스주의 및 혼합 운동 (MOE)을 통합하여 효율성과 성능을 영리하게 균형을 유지합니다.
-
7/8 선형주의 (번개주의 -2) : - 이 선형주의 메커니즘은 O (n²d)에서 O (d²n)으로 계산 복잡성을 크게 감소시켜 장기 텍스트 처리에 이상적입니다. 입력 변환,주의 점수 계산을위한 매트릭스 작업, 정규화 및 스케일링을위한 rmsnorm 및 sigmoid를 위해 Silu 활성화를 사용합니다.
1/8 SoftMax주의 : 전통적인주의 메커니즘,주의 헤드 차원의 절반에 로프 (회전 위치 임베딩)를 통합하여 성능을 희생하지 않고 길이의 외삽을 가능하게합니다. -
Experts 혼합물 (MOE) 전략
Minimax-Text-01의 고유 한 MOE 아키텍처는 DeepSeek-V3과 같은 모델과 구별됩니다.
-
- 토큰 드롭 전략 : 는 DeepSeek의 Dropless 접근 방식과 달리 전문가 간의 균형 잡힌 토큰 분포를 유지하기 위해 보조 손실을 사용합니다.
글로벌 라우터 : 전문가 그룹 간의 작업 부하 분포에 대한 토큰 할당을 최적화합니다.
Top-K 라우팅 :
토큰 당 상위 2 명의 전문가를 선택합니다 (DeepSeek의 상위 8 개 공유 전문가와 비교).
전문가 구성 : 32 명의 전문가 (DeepSeek의 256 1 공유)를 사용하고 전문가의 숨겨진 차원은 9216 (DeepSeek의 2048)입니다. 레이어 당 총 활성화 된 매개 변수는 DeepSeek (18,432)와 동일합니다.
-
훈련 및 스케일링 전략
교육 인프라 : 는 약 2000 H100 GPU를 활용하여 ETP (Expert Tensor 병렬 처리) 및 선형주의 시퀀스 병렬 처리 플러스 (LASP)와 같은 고급 병렬 처리 기술을 사용합니다. 8x80GB H100 노드에서 효율적인 추론을 위해 8 비트 양자화에 최적화되었습니다.
교육 데이터 : - WSD와 같은 학습 속도 일정을 사용하여 약 12 조 토큰으로 훈련되었습니다. 이 데이터는 고품질 및 고품질 데이터에 대한 고품질 중복 제거 및 4 배 반복과 함께 고품질 및 저렴한 소스의 혼합으로 구성되었습니다.
장거리 텍스트 교육 : 3 단계 접근법 : 1 단계 (128K 컨텍스트), 2 단계 (512K 컨텍스트) 및 3 단계 (1m 컨텍스트), 선형 보간을 사용하여 컨텍스트 길이 스케일링 동안 분포 이동을 관리합니다.
교육 후 최적화
반복 미세 조정 : 감독 된 미세 조정 (SFT) 및 강화 학습 (RL)의주기, 오프라인 DPO 및 정렬을 위해 온라인 GRPO를 사용합니다.
장거리 텍스트 미세 조정 : 위상 접근법 : 단락 SFT → 장거리 텍스트 SFT → 단락 RL → 장거리 컨텍스트 RL, 우수한 장거리 컨텍스트 성능에 중요합니다.
핵심 혁신
Deepnorm : 잔류 연결 스케일링 및 훈련 안정성 향상 후 아키텍처.
- 배치 크기 워밍업 : 최적의 훈련 역학을 위해 배치 크기를 16m에서 128m로 점차 증가시킵니다.
효율적인 병렬 처리 :
는 링주의를 활용하여 긴 시퀀스에 대한 메모리 오버 헤드를 최소화하고 낭비 된 계산을 줄이기 위해 패딩 최적화를 최소화합니다.
-
핵심 학문 벤치 마크
(일반 작업, 추론 작업 및 수학 및 코딩 작업에 대한 벤치 마크 결과를 보여주는 테이블은 여기에 포함되어 원래 입력 테이블을 반영합니다.)
-
(추가 평가 매개 변수 링크가 남아 있음)
minimax-text-01 로 시작하는 것
(포옹 페이스 변압기와 함께 Minimax-Text-01을 사용하기위한 코드 예제.)
중요한 링크
chatbot
온라인 api
문서화
결론
Minimax-Text-01은 인상적인 기능을 보여 주어 장기 텍스트 및 일반 목적 작업에서 최첨단 성과를 달성합니다. 개선 영역이 존재하지만 오픈 소스 특성, 비용 효율성 및 혁신적인 아키텍처는 AI 분야에서 중요한 플레이어가됩니다. 코딩 작업에 대한 추가 개선이 유리할 수 있지만 메모리 집약적이고 복잡한 추론 응용 프로그램에 특히 적합합니다.
위 내용은 4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!