


Qwen a ajouté silencieusement un modèle après l'autre. Chacun de ses modèles est livré avec des fonctionnalités si grandes et des tailles si quantifiées qu'elles sont tout simplement impossibles à ignorer. Après QVQ, QWEN2.5-VL et QWEN2.5-OMNI cette année, l'équipe Qwen a maintenant publié sa dernière famille de modèles - Qwen3. Cette fois, ils ont sorti non pas un mais huit modèles différents - allant d'un modèle de paramètres de 0,6 milliard à un modèle de paramètres de 235 milliards - en concurrence avec des modèles top comme O1 d'Openai, Gemini 2.5 Pro, Deepseek R1, et plus encore. Dans ce blog, nous explorerons les modèles QWEN3 en détail et comprendrons leurs fonctionnalités, leur architecture, leur processus de formation, leurs performances et leurs applications. Commençons.
Table des matières
- Qu'est-ce que Qwen3?
- Introduction aux modèles QWEN3
- Caractéristiques clés de Qwen3
- Approche hybride
- Pensée flexibile
- MCP et support agentique
- Pré-entraînement amélioré
- Caractéristiques d'accessibilité
- Modèles Qwen3: applications pratiques
- Tâche 1: raisonnement logique complexe
- Tâche 2: codage
- Tâche 3: Analyse d'image
- Qwen3: performance de référence
- Comment accéder aux modèles QWEN3?
- Applications des modèles QWEN3
- Conclusion
Qu'est-ce que Qwen3?
Développé par le groupe Alibaba, Qwen3 est la troisième génération de modèles QWEN qui sont conçus pour exceller dans diverses tâches telles que le codage, le raisonnement et le traitement du langage. La famille Qwen3 se compose de 8 modèles différents composés de 235 B, 30B, 32 B, 14 B, 8B, 4B, 1,7 B et 0,6 B paramètres. Tous les modèles sont multimodaux signifiant qu'ils peuvent prendre du texte, de l'audio, de l'image et même des entrées vidéo et ont été rendus librement disponibles.
Ces modèles rivalisent avec des modèles de niveau supérieur comme O1, O3-Mini, Grok 3, Gemini 2.5 Pro, et plus encore. En fait, cette dernière série de modèles QWEN surpasse non seulement les modèles populaires, mais marque également une amélioration significative par rapport aux modèles de séries QWEN existants dans des catégories de paramètres comparables. Par exemple, le modèle QWEN-30B-A3B (30 milliards de paramètres avec 3 milliards de paramètres activés) surpasse le modèle de paramètres QWQ-32B qui a tous ses 32 milliards de paramètres activés.
Introduction aux modèles QWEN3
La série QWEN3 est livrée avec 8 modèles, dont deux sont des modèles de mélange de l'expert (MOE) tandis que les 6 autres sont des modèles denses. Le tableau suivant se compose de détails sur tous ces modèles:
Nom du modèle | Paramètres totaux | Paramètres activés (pour les modèles MOE) | Type de modèle |
QWEN3-235B-A22B | 235 milliards | 22 milliards | Moe (mélange d'experts) |
QWEN3-30B-A3B | 30 milliards | 3 milliards | Moe (mélange d'experts) |
Qwen3-32b | 32 milliards | N / A | Dense |
Qwen3-14b | 14 milliards | N / A | Dense |
Qwen3-8b | 8 milliards | N / A | Dense |
Qwen3-4b | 4 milliards | N / A | Dense |
Qwen3-1.7b | 1,7 milliard | N / A | Dense |
Qwen3-0.6b | 0,6 milliard | N / A | Dense |
Dans des modèles MOE comme QWEN3-235B-A22B et QWEN3-30B-A3B, différentes parties du réseau ou des «experts» sont activées en fonction de diverses entrées, ce qui les rend très efficaces. Dans des modèles denses comme Qwen3-14b, toutes les pièces de réseau sont activées pour chaque entrée.
Caractéristiques clés de Qwen3
Voici quelques points forts clés sur les modèles QWEN3:
1. Approche hybride
(i) Mode de réflexion: ce mode est utile lorsque vous traitez des tâches complexes impliquant un raisonnement en plusieurs étapes, une déduction logique ou une résolution de problèmes avancée. Dans ce mode, le modèle QWEN3 décompose le problème donné en petites étapes gérables pour arriver à une réponse.
(ii) Mode non pensée: ce mode est idéal pour les tâches qui exigent des réponses rapides et efficaces comme les conversations en temps réel, la récupération d'informations ou les questions et réponses simples. Dans ce mode, les modèles QWEN3 génèrent rapidement des réponses en fonction de leurs connaissances existantes ou simplement d'une simple recherche Web.
Cette approche hybride devient désormais très populaire parmi tous les LLM les plus performants, car l'approche permet une meilleure utilisation des capacités LLMS et permet une utilisation judicieuse de jetons.
2. Pensée flexibile
Les derniers modèles de la série QWEN3 permettent aux utilisateurs de contrôler également la «profondeur» de la pensée. Il s'agit de la première fonctionnalité du genre, où l'utilisateur peut choisir le niveau de «réflexion» des ressources qu'il souhaite utiliser pour un problème donné. Cela permet également aux utilisateurs de mieux gérer leurs budgets pour une tâche donnée les aidant à atteindre un équilibre optimal entre le coût et la qualité.
3. MCP et support agentique
Les modèles QWEN3 ont été optimisés pour les capacités de codage et d'agence. Ceux-ci sont également livrés avec un support amélioré pour le protocole de contexte modèle (MCP). Les modèles QWEN3 le font en montrant de meilleures capacités d'interaction avec l'environnement externe. Ils viennent également emballés avec des capacités «d'appels» améliorées, ce qui les rend essentielles pour la construction d'agents intelligents. En fait, ils ont publié «Qwen-Agent» un outil séparé pour permettre la création d'agents intelligents à l'aide de modèles QWEN.
4. Amélioration du pré et post-formation
(i) Pré-formation: son processus de pré-formation était un processus en 3 étapes. La première étape impliquait la formation de plus de 30 billions de jetons avec une longueur de contexte 4K. La deuxième étape impliquait une formation dans les tâches STEM, le codage et le raisonnement tandis que la dernière étape impliquait une formation avec des données de contexte à long terme pour étendre la longueur du contexte à des jetons 32K.
(ii) Post Formation: Les modèles QWEN3 qui soutiennent l'approche «pensée» hybride soutiennent le processus de raisonnement en 4 étapes. Les 4 étapes impliquaient un démarrage à froid à long terme (COT), l'apprentissage par renforcement basé sur le raisonnement (RL), la fusion en mode de réflexion et enfin l'apprentissage général de renforcement. La formation des modèles légers impliquait la distillation des modèles de base.
5. Caractéristiques d'accessibilité
(i) Poids ouvert: tous les modèles QWEN3 sont ouverts sous la licence Apache 2.0. Cela signifie que les utilisateurs sont autorisés à télécharger, utiliser et même modifier ces modèles sans aucune restriction majeure.
(ii) Support multilingue: le modèle prend actuellement en charge plus de 119 langues et dialectes, ce qui en fait l'un des rares derniers LLM à se concentrer sur l'inclusivité du langage.
Modèles Qwen3: applications pratiques
Maintenant que nous avons discuté de toutes leurs fonctionnalités en détail, il est temps d'explorer les capacités des modèles QWEN3. Nous testerons les trois modèles suivants: QWEN3-235B-A22B, QWEN3-30B-A3B et QWEN3-32B sur les trois tâches suivantes:
- Raisonnement logique complexe
- Codage
- Analyse d'image
Commençons.
Tâche 1: raisonnement logique complexe
Invite: «Un astronaute se déplace de la Terre à une étoile lointaine à 8 années-lumière des années à 0,8 ° C (80% la vitesse de la lumière), mesurée à partir du cadre de la Terre. Au milieu du voyage, le détour des astronautes se détache près d'un trou noir, mais dans la forte dilatation du temps se produit, les passages de 10 ° SLATS-SLOWS DU DRATS-OFFRESS, mais dans cette région, les passes de temps 10 ° SLOPE comparées à l'extérieur pour extérieure pour les effets graves.
L'astronaute affirme que, y compris le détour, seulement 6 ans se sont écoulés pendant tout le voyage.
En utilisant la relativité spéciale et les principes de dilatation du temps gravitationnel, évaluez si la revendication de l'astronaute de «seulement 6 ans passé» est cohérente avec les effets relativistes connus. Fournir une explication étape par étape en considérant le temps ressenti dans le mouvement uniforme et près du trou noir. »
Modèle: QWEN3-30B-A3B
Sortir:
Revoir:
C'est impressionnant à quelle vitesse ce modèle fonctionne! Il résout le problème étape par étape et explique chaque étape simplement. Le modèle donne ensuite des calculs détaillés pertinents pour l'énoncé du problème, puis génère de manière concluante le résultat. Il explique en outre le résultat et garantit que tous les points sont couverts efficacement.
Tâche 2: codage
Invite: «Créez une page Web qui aide les utilisateurs à suggérer la meilleure tenue pour eux en fonction de la météo, de l'occasion, de l'heure de la journée et de la gamme de prix.»
Modèle: QWEN3-235B-A22B
Sortir:
Revoir:
Le modèle a rapidement généré le code de la page Web avec toutes les entrées pertinentes et il a été facile de tester le code en utilisant la fonction «Artefacts» dans l'interface Qwenchat. Une fois le code implémenté, je viens d'ajouter les détails à la page Web générée et j'ai obtenu les recommandations de tenue en fonction de mes exigences - le tout en quelques secondes! Ce modèle a présenté la vitesse avec précision.
Tâche 3: Analyse d'image
Invite: «Analysez les images suivantes et organisez les modèles dans l'ordre décroissant de leurs performances sur la référence« LivecodeBench ».
Modèle: Qwen3-32b
Sortir:
Revoir:
Le modèle est excellent en analyse d'image. Il analyse rapidement les deux images, puis en fonction de celui-ci, le modèle fournit le résultat dans le format que nous l'avons demandé. La meilleure partie de ce modèle est la rapidité avec laquelle elle traite les informations complètes et génère la sortie.
Qwen3: performance de référence
Dans la dernière section, nous avons vu les performances de 3 modèles QWEN3 différents sur 3 tâches différentes. Les trois modèles ont bien fonctionné et m'ont surpris avec leur approche de la résolution de problèmes. Voyons maintenant les performances de référence des modèles QWEN par rapport aux autres modèles Top et les modèles précédents de la série QWEN.
Par rapport aux modèles de haut niveau comme OpenAI-O1, Deepseek-R1, Grok 3, Gemini 2.5 Pro - QWEN-235B-A22B sont un champion clair, et à juste titre. Il offre des performances stellaires à travers le codage et les repères de support de langue multilingue.
En fait, le modèle compact QWEN3-32B a également pu surpasser plusieurs modèles, ce qui en fait un choix rentable pour de nombreuses tâches.
Par rapport à ses prédécesseurs, les modèles QWEN3: QWEN3-30B-A3B et QWEN3-4B surpassent la plupart des modèles existants. Ces modèles n'offrent pas seulement de meilleures performances, mais avec leurs prix rentables, les modèles QWEN3 sont vraiment un pas en place par rapport à ses versions précédentes.
Lire aussi: Kimi K1.5 contre Deepseek R1: Bataille des meilleurs LLMS chinois
Comment accéder aux modèles QWEN3?
Pour accéder aux modèles QWEN3, vous pouvez utiliser l'une des méthodes suivantes:
- Ouvrir Qwenchat
Dirigez-vous vers Qwenchat.
- Sélectionnez le modèle
Sélectionnez le modèle avec lequel vous souhaitez travailler à partir de la liste déroulante présente sur le côté gauche, au milieu de l'écran.
- Accéder aux modèles post-formés et pré-formés
Pour accéder aux modèles post-formés et à leurs homologues pré-formés, dirigez-vous vers le visage étreint, les modèles et Kaggle.
- Déploiement des modèles
Pour le déploiement, vous pouvez utiliser des frameworks comme SGLANG et VLLM.
- Accéder aux modèles localement
Pour accéder à ces modèles localement, utilisez des outils comme Ollama, Lmstudio, Mlx, Llama.Cpp et Ktransformateurs.
Applications des modèles QWEN3
Les modèles Qwen3 sont impressionnants et peuvent être d'une grande aide dans des tâches comme:
- Bâtiment d'agent: les modèles QWEN3 ont été développés avec des fonctionnalités améliorées de fonctions qui en feraient un choix idéal pour développer des agents d'IA. Ces agents peuvent ensuite nous aider avec diverses tâches impliquant la finance, les soins de santé, les RH, etc.
- Tâches multilingues: les modèles QWEN3 ont été formés dans diverses langues et peuvent être une grande valeur additionnelle pour développer des outils qui nécessitent une prise en charge dans plusieurs langues. Ceux-ci peuvent impliquer des tâches comme la traduction du langage en temps réel, l'analyse du langage et le traitement.
- Applications mobiles: les modèles QWEN3 de petite taille sont nettement meilleurs que les autres SLM dans la même catégorie. Ceux-ci peuvent être utilisés pour développer des applications mobiles avec le support LLM.
- Assistance à la décision à des problèmes complexes: les modèles sont livrés avec un mode de réflexion qui peut aider à décomposer des problèmes complexes tels que les projections, la planification des actifs et la gestion des ressources.
Conclusion
Dans un monde où chaque dernier LLM des meilleures sociétés comme OpenAI et Google a été d'ajouter des paramètres, les modèles QWEN3 apportent l'efficacité même au plus petit de leurs modèles. Ceux-ci sont gratuits pour tout le monde et ont été rendus publics pour aider les développeurs à créer des applications incroyables.
Ces modèles sont-ils révolutionnaires? Peut-être pas, mais sont-ils meilleurs? Certainement oui! De plus, avec une réflexion flexible, ces modèles permettent aux utilisateurs d'allouer des ressources en fonction de la complexité des tâches. J'attends toujours avec impatience les versions du modèle QWEN, car ce qu'ils font est de la qualité et des fonctionnalités et de percevoir un résultat que la plupart des modèles supérieurs n'ont toujours pas pu réaliser.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA générative, illustrée par des chatbots comme Chatgpt, offre aux chefs de projet des outils puissants pour rationaliser les workflows et s'assurer que les projets restent dans les horaires et dans le budget. Cependant, une utilisation efficace dépend de l'élaboration des bonnes invites. Précis, détail

Le défi de définir l'intelligence générale artificielle (AGI) est significative. Les allégations de progrès AGI n'ont souvent pas de référence claire, avec des définitions adaptées à l'adaptation des instructions de recherche prédéterminées. Cet article explore une nouvelle approche de définir

IBM Watsonx.Data: rationalisation de la pile de données de l'IA d'entreprise IBM positionne Watsonx.Data comme plate-forme pivot pour les entreprises visant à accélérer la livraison de solutions d'interface utilisateur génératrices précises et évolutives. Ceci est réalisé en simplifiant le complat

Les progrès rapides de la robotique, alimentés par des percées dans l'IA et la science des matériaux, sont sur le point d'inaugurer une nouvelle ère de robots humanoïdes. Pendant des années, l'automatisation industrielle a été l'objectif principal, mais les capacités des robots sont rapidement exp

La plus grande mise à jour de l'interface Netflix en une décennie: plus intelligente, plus personnalisée, adoptant un contenu diversifié Netflix a annoncé sa plus grande refonte de son interface utilisateur en une décennie, non seulement un nouveau look, mais ajoute également plus d'informations sur chaque émission, et introduit des outils de recherche d'IA plus intelligents qui peuvent comprendre des concepts vagues tels que des événements "ambiants" et des structures plus flexibles pour mieux démontrer l'intérêt de l'entreprise pour les jeux vidéo émergents, les événements en direct, les événements sportifs et d'autres nouveaux types de contenu. Pour suivre la tendance, le nouveau composant vidéo vertical sur mobile permettra aux fans de faire défiler les bandes-annonces et de clips, de regarder le spectacle complet ou de partager du contenu avec d'autres. Cela vous rappelle le défilement infini et le site Web vidéo très réussi TI

La discussion croissante de l'intelligence générale (AGI) dans l'intelligence artificielle a incité beaucoup à réfléchir à ce qui se passe lorsque l'intelligence artificielle dépasse l'intelligence humaine. Que ce moment soit proche ou éloigné dépend de qui vous demandez, mais je ne pense pas que ce soit la jalon la plus importante sur laquelle nous devrions nous concentrer. Quels jalons d'IA antérieurs affecteront tout le monde? Quels jalons ont été franchis? Voici trois choses qui, selon moi. L'intelligence artificielle dépasse les faiblesses humaines Dans le film de 2022 "Social Dilemma", Tristan Harris du Center for Humane Technology a souligné que l'intelligence artificielle a dépassé les faiblesses humaines. Qu'est-ce que cela signifie? Cela signifie que l'intelligence artificielle a pu utiliser les humains

Le CTO de TransUnion, Ranganath Achanta, a dirigé une transformation technologique importante depuis qu'il a rejoint la société à la suite de son acquisition de Neustar fin 2021. Sa direction de plus de 7 000 associés dans divers départements s'est concentrée sur U

L'édification de la confiance est primordiale pour une adoption réussie de l'IA dans les affaires. Cela est particulièrement vrai compte tenu de l'élément humain dans les processus commerciaux. Les employés, comme quiconque, abritent des préoccupations concernant l'IA et sa mise en œuvre. Les chercheurs de Deloitte sont SC


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

SublimeText3 version anglaise
Recommandé : version Win, prend en charge les invites de code !

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.
