Tokens 4m? Minimax-text-01 surpasse Deepseek v3-IA-php.cn

Maison

Périphériques technologiques

Tokens 4m? Minimax-text-01 surpasse Deepseek v3

Lisa Kudrow

Mar 10, 2025 am 10:00 AM

L'IA chinois fait des progrès importants, ce qui remet en question les principaux modèles comme GPT-4, Claude et Grok avec des alternatives à source ouverte rentables telles que Deepseek-V3 et Qwen 2.5. Ces modèles excellent en raison de leur efficacité, de leur accessibilité et de leurs performances solides. Beaucoup opèrent sous des licences commerciales permissives, élargissant leur appel aux développeurs et aux entreprises.

minimax-text-01, le plus récent ajout à ce groupe, établit une nouvelle norme avec sa longueur de contexte de jeton sans précédent de 4 millions de token - dépassant une limite de jeton typique de 128K-256K. Cette capacité de contexte étendue, combinée à une architecture d'attention hybride pour l'efficacité et une licence open source et permissive, favorise l'innovation sans coûts élevés.

Plongeons les fonctionnalités de MinimAx-Text-01:

Table des matières

Architecture hybride
Stratégie du mélange de mélange (MOE)
Stratégies de formation et de mise à l'échelle
Optimisation post-entraînement
Innovations clés
Core Academic Benchmarks
- Tâches générales Benchmarks
- Tâches de raisonnement Benchmarks
- Tâches mathématiques et codage Benchmarks
En démarrage avec minimax-text-01
Liens importants
Conclusion

Architecture hybride

minimax-text-01 équilibrent intelligemment l'efficacité et les performances en intégrant l'attention de la foudre, l'attention de Softmax et le mélange des experts (MOE).

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

7/8 ATTENTION LINÉEURE (ATTENTION DE LA LUMBER-2): Ce mécanisme d'attention linéaire réduit considérablement la complexité de calcul de O (n²d) à O (d²n), idéal pour le traitement à long contexte. Il utilise l'activation de SILU pour la transformation d'entrée, les opérations matricielles pour le calcul du score d'attention et le rmsnorm et le sigmoïde pour la normalisation et la mise à l'échelle.
1/8 Softmax Attention: Un mécanisme d'attention traditionnel, incorporant une corde (position rotative incorporant) sur la moitié de la dimension de la tête d'attention, permettant l'extrapolation de longueur sans sacrifier les performances.

Stratégie du mélange de mélange (MOE)

L'architecture MOE unique de MinimAx-Text-01 le distingue des modèles comme Deepseek-V3:

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

Stratégie de chute de jetons: utilise une perte auxiliaire pour maintenir une distribution de jetons équilibrée entre les experts, contrairement à l'approche sans dropless de Deepseek.
Routeur global: optimise l'allocation de jetons pour même la distribution de la charge de travail entre les groupes d'experts.
Route Top-K: Sélectionne les 2 premiers experts par jeton (par rapport à l'expert partagé du top-8 1 de Deepseek).
Configuration des experts: utilise 32 experts (par rapport au 256 1 de Deepseek), avec une dimension cachée d'experts de 9216 (par rapport à 2048 de Deepseek). Les paramètres totaux activés par couche restent les mêmes que Deepseek (18 432).

Stratégies de formation et de mise à l'échelle

Infrastructure de formation: a exploité environ 2000 GPU H100, en utilisant des techniques de parallélisme avancées comme le parallélisme du tenseur expert (ETP) et le parallélisme de séquence d'attention linéaire plus (LASP). Optimisé pour la quantification 8 bits pour une inférence efficace sur les nœuds H100 8 x 80 Go.
Données de formation: formées sur environ 12 billions de jetons en utilisant un calendrier de taux d'apprentissage de type WSD. Les données comprenaient un mélange de sources de haute et de faible qualité, avec une déduplication globale et une répétition 4x pour les données de haute qualité.
Formation en contexte à long-contexte: Une approche à trois phases: phase 1 (contexte 128k), phase 2 (contexte 512k) et phase 3 (contexte 1M), en utilisant l'interpolation linéaire pour gérer les changements de distribution pendant la mise à l'échelle de la longueur de contexte.

Optimisation post-entraînement

Fineur itératif: cycles de réglage fin supervisé (SFT) et d'apprentissage par renforcement (RL), en utilisant le DPO hors ligne et le GRPO en ligne pour l'alignement.
Fine-text à long contexte: Une approche phasée: SFT-contexte court → SFT à long contexte → RL à contexte court → RL à long contexte, crucial pour les performances supérieures en contexte.

Innovations clés

Deepnorm: Une architecture post-norme améliorant la mise à l'échelle de la connexion résiduelle et la stabilité de la formation.
Échauffement de la taille du lot: augmente progressivement la taille du lot de 16 m à 128 m pour une dynamique de formation optimale.
Parallélisme efficace: utilise l'attention de l'anneau pour minimiser les frais généraux de mémoire pour les séquences longues et l'optimisation du padding pour réduire le calcul gaspillé.

Core Academic Benchmarks

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

(les tables montrant les résultats de référence pour les tâches générales, les tâches de raisonnement et les mathématiques et les tâches de codage sont incluses ici, reflétant les tables de l'entrée d'origine.)

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

(Paramètres d'évaluation supplémentaires La liaison reste)

En démarrage avec minimax-text-01

(Exemple de code pour l'utilisation de minimax-text-01 avec des transformateurs de face étreintes reste le même.)

Liens importants

chatbot
API en ligne
Documentation

Conclusion

minimax-text-01 démontre des capacités impressionnantes, réalisant des performances de pointe dans les tâches à long terme et à usage général. Bien qu'il existe des domaines d'amélioration, sa nature open source, sa rentabilité et son architecture innovante en font un acteur important dans le domaine de l'IA. Il convient particulièrement aux applications de raisonnement à forte intensité de mémoire et complexes, bien que le raffinement supplémentaire des tâches de codage puisse être bénéfique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Une explication facile à comprendre sur la façon de mettre en place une authentification en deux étapes dans le chatppt!May 12, 2025 pm 05:37 PM

ChatGpt Security Enhanced: Guide de configuration de l'authentification en deux étapes (2FA) L'authentification à deux facteurs (2FA) est requise comme mesure de sécurité pour les plateformes en ligne. Cet article expliquera de manière facile à comprendre la procédure de configuration 2FA et son importance dans le chatppt. Ceci est un guide pour ceux qui souhaitent utiliser Chatgpt en toute sécurité. Cliquez ici pour le dernier agent d'IA d'OpenAI, Openai Deep Research ⬇️ [Chatgpt] Qu'est-ce que l'Openai Deep Research? Une explication approfondie de la façon de l'utiliser et de la structure des frais! table des matières Chatte

[Pour les entreprises] Formation du chatppt | Une introduction approfondie à 8 options de formation gratuites, subventions et exemples!May 12, 2025 pm 05:35 PM

L'utilisation de l'IA générée attire l'attention comme clé pour améliorer l'efficacité des entreprises et créer de nouvelles entreprises. En particulier, le chatpt d'Openai a été adopté par de nombreuses entreprises en raison de sa polyvalence et de sa précision. Cependant, la pénurie de personnel qui peut utiliser efficacement Chatgpt est un défi majeur dans la mise en œuvre. Dans cet article, nous expliquerons la nécessité et l'efficacité de la "formation de chatppt" pour assurer une utilisation réussie de Chatgpt dans les entreprises. Nous présenterons un large éventail de sujets, des bases de Chatgpt à l'utilisation de l'entreprise, des programmes de formation spécifiques et comment les choisir. La formation de Chatgpt améliore les compétences des employés

Une explication approfondie de la façon d'utiliser Chatgpt pour rationaliser vos opérations Twitter!May 12, 2025 pm 05:34 PM

Une efficacité et une qualité améliorées dans les opérations des médias sociaux sont essentielles. En particulier sur les plates-formes, où le temps réel est important, comme Twitter, nécessite une livraison continue de contenu en temps opportun et engageant. Dans cet article, nous expliquerons comment utiliser Twitter à l'aide de Chatgpt d'Openai, une IA avec des capacités avancées de traitement du langage naturel. En utilisant Chatgpt, vous pouvez non seulement améliorer vos capacités de réponse en temps réel et améliorer l'efficacité de la création de contenu, mais vous pouvez également développer des stratégies de marketing conformes aux tendances. De plus, des précautions pour une utilisation

[Pour Mac] Expliquer comment commencer et comment utiliser l'application de bureau ChatGpt!May 12, 2025 pm 05:33 PM

Guide approfondi de l'application de bureau Mac ChatGpt Mac: de l'installation aux fonctions audio Enfin, l'application de bureau de Chatgpt pour Mac est maintenant disponible! Dans cet article, nous expliquerons en détail tout, des méthodes d'installation aux fonctionnalités utiles et aux informations de mise à jour futures. Utilisez les fonctions propres aux applications de bureau, telles que les clés de raccourci, la reconnaissance d'image et les modes vocaux, pour améliorer considérablement l'efficacité de votre entreprise! Installation de la version Chatgpt Mac de l'application de bureau Accès à partir d'un navigateur: Tout d'abord, accédez à Chatgpt dans votre navigateur.

Quelle est la limite de caractère pour Chatgpt? Explication de la façon de l'éviter et des limites supérieures par modèleMay 12, 2025 pm 05:32 PM

Lorsque vous utilisez Chatgpt, avez-vous déjà eu des expériences telles que "la sortie s'est arrêtée à mi-chemin" ou "même si j'ai spécifié le nombre de caractères, il n'a pas sorti correctement"? Ce modèle est très révolutionnaire et permet non seulement des conversations naturelles, mais permet également la création d'e-mails, les documents de résumé et génère même des phrases créatives telles que des romans. Cependant, l'une des faiblesses de Chatgpt est que si le texte est trop long, l'entrée et la sortie ne fonctionneront pas correctement. Le dernier agent d'IA d'Openai, "Openai Deep Research"

Quelle est la fonction de conversation vocale et de conversation vocale de Chatgpt? Expliquer comment le configurer et comment l'utiliserMay 12, 2025 pm 05:27 PM

Chatgpt est un chatbot IA innovant développé par OpenAI. Il a non seulement une entrée de texte, mais propose également des fonctions de conversation vocale et de conversation vocale, permettant une communication plus naturelle. Dans cet article, nous expliquerons comment configurer et utiliser les fonctions de conversation vocale et de conversation vocale de Chatgpt. Même lorsque vous ne pouvez pas enlever vos mains, Chatgpt répond et répond avec l'audio simplement en vous parlant, ce qui apporte de grands avantages dans une variété de situations, telles que des situations commerciales occupées et des pratiques de conversation en anglais. Une explication détaillée de la configuration de l'application et du PC de l'application pour smartphone, ainsi que de la façon d'utiliser chacun.

Une explication facile à comprendre sur la façon d'utiliser le chatppt pour la chasse au travail et la chasse au travail!May 12, 2025 pm 05:26 PM

Le raccourci vers le succès! Stratégies de changement d'emploi efficaces à l'aide de chatppt Sur le marché actuel des changements d'emploi, une collecte d'informations efficace et une préparation approfondie sont essentielles au succès. Les modèles de langue avancée comme Chatgpt sont des armes puissantes pour les demandeurs d'emploi. Dans cet article, nous expliquerons comment utiliser efficacement Chatgpt pour améliorer votre efficacité de chasse au travail, de l'auto-analyse aux documents de candidature et à la préparation des entretiens. Gagnez du temps et apprenez les techniques pour mettre en valeur vos forces au maximum et vous aider à faire un succès à votre recherche d'emploi. table des matières Exemples de recherche d'emploi à l'aide de chatppt Efficacité de l'auto-analyse: chat

Une explication facile à comprendre sur la façon de créer et de sortir des cartes mentales à l'aide de chatppt!May 12, 2025 pm 05:22 PM

Les cartes d'esprit sont des outils utiles pour organiser des informations et proposer des idées, mais les créer peut prendre du temps. L'utilisation de Chatgpt peut rationaliser considérablement ce processus. Cet article expliquera en détail comment créer facilement des cartes mentales à l'aide de Chatgpt. De plus, grâce à des exemples réels de création, nous présenterons comment utiliser les cartes mentales sur divers thèmes. Apprenez à organiser et à visualiser efficacement vos idées et vos informations à l'aide de Chatgpt. Le dernier agent d'IA d'Openai, OpenA

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semainesByDDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semainesByDDD

Nordhold: Système de fusion, expliqué

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.