L'IA chinois fait des progrès importants, ce qui remet en question les principaux modèles comme GPT-4, Claude et Grok avec des alternatives à source ouverte rentables telles que Deepseek-V3 et Qwen 2.5. Ces modèles excellent en raison de leur efficacité, de leur accessibilité et de leurs performances solides. Beaucoup opèrent sous des licences commerciales permissives, élargissant leur appel aux développeurs et aux entreprises.
minimax-text-01, le plus récent ajout à ce groupe, établit une nouvelle norme avec sa longueur de contexte de jeton sans précédent de 4 millions de token - dépassant une limite de jeton typique de 128K-256K. Cette capacité de contexte étendue, combinée à une architecture d'attention hybride pour l'efficacité et une licence open source et permissive, favorise l'innovation sans coûts élevés.
Plongeons les fonctionnalités de MinimAx-Text-01:
Table des matières
- Architecture hybride
- Stratégie du mélange de mélange (MOE)
- Stratégies de formation et de mise à l'échelle
- Optimisation post-entraînement
- Innovations clés
- Core Academic Benchmarks
- Tâches générales Benchmarks
- Tâches de raisonnement Benchmarks
- Tâches mathématiques et codage Benchmarks
- En démarrage avec minimax-text-01
- Liens importants
- Conclusion
Architecture hybride
minimax-text-01 équilibrent intelligemment l'efficacité et les performances en intégrant l'attention de la foudre, l'attention de Softmax et le mélange des experts (MOE).
- 7/8 ATTENTION LINÉEURE (ATTENTION DE LA LUMBER-2): Ce mécanisme d'attention linéaire réduit considérablement la complexité de calcul de O (n²d) à O (d²n), idéal pour le traitement à long contexte. Il utilise l'activation de SILU pour la transformation d'entrée, les opérations matricielles pour le calcul du score d'attention et le rmsnorm et le sigmoïde pour la normalisation et la mise à l'échelle.
- 1/8 Softmax Attention: Un mécanisme d'attention traditionnel, incorporant une corde (position rotative incorporant) sur la moitié de la dimension de la tête d'attention, permettant l'extrapolation de longueur sans sacrifier les performances.
Stratégie du mélange de mélange (MOE)
L'architecture MOE unique de MinimAx-Text-01 le distingue des modèles comme Deepseek-V3:
- Stratégie de chute de jetons: utilise une perte auxiliaire pour maintenir une distribution de jetons équilibrée entre les experts, contrairement à l'approche sans dropless de Deepseek.
- Routeur global: optimise l'allocation de jetons pour même la distribution de la charge de travail entre les groupes d'experts.
- Route Top-K: Sélectionne les 2 premiers experts par jeton (par rapport à l'expert partagé du top-8 1 de Deepseek).
- Configuration des experts: utilise 32 experts (par rapport au 256 1 de Deepseek), avec une dimension cachée d'experts de 9216 (par rapport à 2048 de Deepseek). Les paramètres totaux activés par couche restent les mêmes que Deepseek (18 432).
Stratégies de formation et de mise à l'échelle
- Infrastructure de formation: a exploité environ 2000 GPU H100, en utilisant des techniques de parallélisme avancées comme le parallélisme du tenseur expert (ETP) et le parallélisme de séquence d'attention linéaire plus (LASP). Optimisé pour la quantification 8 bits pour une inférence efficace sur les nœuds H100 8 x 80 Go.
- Données de formation: formées sur environ 12 billions de jetons en utilisant un calendrier de taux d'apprentissage de type WSD. Les données comprenaient un mélange de sources de haute et de faible qualité, avec une déduplication globale et une répétition 4x pour les données de haute qualité.
- Formation en contexte à long-contexte: Une approche à trois phases: phase 1 (contexte 128k), phase 2 (contexte 512k) et phase 3 (contexte 1M), en utilisant l'interpolation linéaire pour gérer les changements de distribution pendant la mise à l'échelle de la longueur de contexte.
Optimisation post-entraînement
- Fineur itératif: cycles de réglage fin supervisé (SFT) et d'apprentissage par renforcement (RL), en utilisant le DPO hors ligne et le GRPO en ligne pour l'alignement.
- Fine-text à long contexte: Une approche phasée: SFT-contexte court → SFT à long contexte → RL à contexte court → RL à long contexte, crucial pour les performances supérieures en contexte.
Innovations clés
- Deepnorm: Une architecture post-norme améliorant la mise à l'échelle de la connexion résiduelle et la stabilité de la formation.
- Échauffement de la taille du lot: augmente progressivement la taille du lot de 16 m à 128 m pour une dynamique de formation optimale.
- Parallélisme efficace: utilise l'attention de l'anneau pour minimiser les frais généraux de mémoire pour les séquences longues et l'optimisation du padding pour réduire le calcul gaspillé.
Core Academic Benchmarks
(les tables montrant les résultats de référence pour les tâches générales, les tâches de raisonnement et les mathématiques et les tâches de codage sont incluses ici, reflétant les tables de l'entrée d'origine.)
(Paramètres d'évaluation supplémentaires La liaison reste)
En démarrage avec minimax-text-01
(Exemple de code pour l'utilisation de minimax-text-01 avec des transformateurs de face étreintes reste le même.)
Liens importants
- chatbot
- API en ligne
- Documentation
Conclusion
minimax-text-01 démontre des capacités impressionnantes, réalisant des performances de pointe dans les tâches à long terme et à usage général. Bien qu'il existe des domaines d'amélioration, sa nature open source, sa rentabilité et son architecture innovante en font un acteur important dans le domaine de l'IA. Il convient particulièrement aux applications de raisonnement à forte intensité de mémoire et complexes, bien que le raffinement supplémentaire des tâches de codage puisse être bénéfique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!