>기술 주변기기 >일체 포함 >4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다

4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다

Lisa Kudrow
Lisa Kudrow원래의
2025-03-10 10:00:17923검색

중국 AI는 Depseek-V3 및 Qwen 2.5와 같은 비용 효율적인 오픈 소스 대안으로 GPT-4, Claude 및 Grok과 같은 주요 모델에 도전하고 있습니다. 이러한 모델은 효율성, 접근성 및 강력한 성능으로 인해 뛰어납니다. 많은 사람들이 허용되는 상업 라이센스 하에서 운영하여 개발자와 비즈니스에 대한 호소력을 넓 힙니다. 이 그룹에 가장 최근에 추가 된 Minimax-Text-01은 전례없는 4 백만 개의 토큰 컨텍스트 길이로 새로운 표준을 설정하여 일반적인 128K-256K 토큰 한도를 뛰어 넘습니다. 이 확장 된 컨텍스트 기능은 효율성을위한 하이브리드주의 아키텍처 및 오픈 소스, 상업적으로 허용되는 라이센스와 결합하여 높은 비용없이 혁신을 촉진합니다. Minimax-Text-01의 기능을 탐구합시다 목차

하이브리드 아키텍처 Experts 혼합물 (MOE) 전략 훈련 및 스케일링 전략 교육 후 최적화 핵심 혁신 핵심 학문 벤치 마크 일반 작업 벤치 마크 추론 작업 벤치 마크 수학 및 코딩 작업 벤치 마크

minimax-text-01 로 시작하는 것 중요한 링크
    결론
  • 하이브리드 아키텍처 minimax-text-01은 번개주의, 소프트 맥스주의 및 혼합 운동 (MOE)을 통합하여 효율성과 성능을 영리하게 균형을 유지합니다.
  • 7/8 선형주의 (번개주의 -2) :
  • 이 선형주의 메커니즘은 O (n²d)에서 O (d²n)으로 계산 복잡성을 크게 감소시켜 장기 텍스트 처리에 이상적입니다. 입력 변환,주의 점수 계산을위한 매트릭스 작업, 정규화 및 스케일링을위한 rmsnorm 및 sigmoid를 위해 Silu 활성화를 사용합니다.
  • 1/8 SoftMax주의 : 전통적인주의 메커니즘,주의 헤드 차원의 절반에 로프 (회전 위치 임베딩)를 통합하여 성능을 희생하지 않고 길이의 외삽을 가능하게합니다.
  • Experts 혼합물 (MOE) 전략 Minimax-Text-01의 고유 한 MOE 아키텍처는 DeepSeek-V3과 같은 모델과 구별됩니다.
    • 토큰 드롭 전략 : 는 DeepSeek의 Dropless 접근 방식과 달리 전문가 간의 균형 잡힌 토큰 분포를 유지하기 위해 보조 손실을 사용합니다. 글로벌 라우터 : 전문가 그룹 간의 작업 부하 분포에 대한 토큰 할당을 최적화합니다. Top-K 라우팅 :
    • 토큰 당 상위 2 명의 전문가를 선택합니다 (DeepSeek의 상위 8 개 공유 전문가와 비교). 전문가 구성 : 32 명의 전문가 (DeepSeek의 256 1 공유)를 사용하고 전문가의 숨겨진 차원은 9216 (DeepSeek의 2048)입니다. 레이어 당 총 활성화 된 매개 변수는 DeepSeek (18,432)와 동일합니다.
    • 훈련 및 스케일링 전략 교육 인프라 : 는 약 2000 H100 GPU를 활용하여 ETP (Expert Tensor 병렬 처리) 및 선형주의 시퀀스 병렬 처리 플러스 (LASP)와 같은 고급 병렬 처리 기술을 사용합니다. 8x80GB H100 노드에서 효율적인 추론을 위해 8 비트 양자화에 최적화되었습니다.
    • 교육 데이터 :
    • WSD와 같은 학습 속도 일정을 사용하여 약 12 ​​조 토큰으로 훈련되었습니다. 이 데이터는 고품질 및 고품질 데이터에 대한 고품질 중복 제거 및 4 배 반복과 함께 고품질 및 저렴한 소스의 혼합으로 구성되었습니다. 장거리 텍스트 교육 : 3 단계 접근법 : 1 단계 (128K 컨텍스트), 2 단계 (512K 컨텍스트) 및 3 단계 (1m 컨텍스트), 선형 보간을 사용하여 컨텍스트 길이 스케일링 동안 분포 이동을 관리합니다.
    • 교육 후 최적화 반복 미세 조정 : 감독 된 미세 조정 (SFT) 및 강화 학습 (RL)의주기, 오프라인 DPO 및 정렬을 위해 온라인 GRPO를 사용합니다. 장거리 텍스트 미세 조정 : 위상 접근법 : 단락 SFT → 장거리 텍스트 SFT → 단락 RL → 장거리 컨텍스트 RL, 우수한 장거리 컨텍스트 성능에 중요합니다.
    핵심 혁신

      Deepnorm : 잔류 연결 스케일링 및 훈련 안정성 향상 후 아키텍처.
    • 배치 크기 워밍업 : 최적의 훈련 역학을 위해 배치 크기를 16m에서 128m로 점차 증가시킵니다. 효율적인 병렬 처리 :
    • 는 링주의를 활용하여 긴 시퀀스에 대한 메모리 오버 헤드를 최소화하고 낭비 된 계산을 줄이기 위해 패딩 최적화를 최소화합니다.
    • 핵심 학문 벤치 마크
    • (일반 작업, 추론 작업 및 수학 및 코딩 작업에 대한 벤치 마크 결과를 보여주는 테이블은 여기에 포함되어 원래 입력 테이블을 반영합니다.)
    • (추가 평가 매개 변수 링크가 남아 있음)
    minimax-text-01 로 시작하는 것 (포옹 페이스 변압기와 함께 Minimax-Text-01을 사용하기위한 코드 예제.) 중요한 링크

    chatbot 온라인 api

    문서화

    결론 Minimax-Text-01은 인상적인 기능을 보여 주어 장기 텍스트 및 일반 목적 작업에서 최첨단 성과를 달성합니다. 개선 영역이 존재하지만 오픈 소스 특성, 비용 효율성 및 혁신적인 아키텍처는 AI 분야에서 중요한 플레이어가됩니다. 코딩 작업에 대한 추가 개선이 유리할 수 있지만 메모리 집약적이고 복잡한 추론 응용 프로그램에 특히 적합합니다.
      .

위 내용은 4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.