recherche
MaisonPériphériques technologiquesIATop 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Cette année, les modèles de langage compacts (CLM) comme O1 d'OpenAI ont attiré une attention significative, démontrant des capacités impressionnantes de traitement du langage naturel. Cependant, de nombreuses applications ne nécessitent pas les immenses ressources des modèles plus grands. Entrez les modèles de petits langues (SLM) - des solutions efficaces et rationalisées idéales pour les applications soucieuses du budget et les environnements de calcul limités.

Les SLMS équilibrent les performances et l'efficacité. L'architecture et la taille optimisées les rendent parfaits pour les appareils Edge, les systèmes liés aux ressources et les applications nécessitant une inférence rapide. De la propagation des applications mobiles à la fourniture de fonctionnalités de PNL hors ligne, ces modèles démocratisent les technologies linguistiques avancées.

Ce blog explore 13 SLM les plus performants. Que vous soyez un développeur à la recherche de solutions légères ou un chercheur enquêtant sur une PNL efficace, cette liste montre que les petits peuvent être meilleurs. Explorons comment ces modèles compacts ont un impact significatif.

Table des matières

  • Performances polyvalentes multi-tâches (traduction, résumé, Q&R)
    • T5
    • Qwen-2
    • Lama 3.2
    • Mistral Nemo
    • Mistral Small 3
  • Tâches axées sur le raisonnement
    • O3-min
    • Phi-4
  • Génération de texte
    • Distilgpt-2
    • Smollm
  • Général NLU (classification du texte, analyse des sentiments, reconnaissance de l'entité nommée)
    • Minimil
    • Mobiles
    • Microsoft Phi 3,5 Mini
    • Gemma 2
    • Tinybert
    • Distilbert
  • Questions fréquemment posées

Pour une plongée plus profonde dans les SLM, voir: Que sont les modèles de petits langues (SLM)? Maintenant, examinons ces 13 SLM principaux.

Performances polyvalentes multi-tâches (traduction, résumé, Q&R)

T5

Le T5 de Google Research (transformateur de transfert de texte à texte) est un modèle polyvalent utilisant un cadre de texte à texte unifié pour diverses tâches NLP (traduction, résumé, Q&R).

Taille du paramètre

T5 offre différentes tailles, de T5-Small (60 millions de paramètres) à T5-11B (11 milliards de paramètres), répondant à divers besoins en ressources.

Architecture

L'architecture du transformateur de T5 utilise des composants d'encodeur et de décodeur, mettant l'accent sur la flexibilité en encadrant toutes les tâches en tant que problèmes de texte à texte. La pré-formation sur un grand ensemble de données améliore sa compréhension.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

T5 est open-source (Licence Apache 2.0), accessible via TensorFlow et Face étreint.

Qwen-2

Qwen-2 est un CLM efficace excellant dans la génération, la classification et la résumé de texte, adaptés à diverses applications. Sa conception modulaire est idéale pour le matériel contraint.

Taille du paramètre

Qwen-2 est disponible en 3 milliards, 7 milliards et 13 milliards de versions de paramètres, offrant une évolutivité pour différentes applications.

Architecture

L'architecture transformatrice avancée de QWEN-2 utilise des techniques telles que les incorporations de positionnelles rotatives et la pré-normalisation adaptative pour la vitesse et la stabilité. Sa modularité assure l'adaptabilité.

Disponibilité

Qwen-2 est open-source, avec quelques fonctionnalités avancées disponibles via l'abonnement.

Lama 3.2

LLAMA 3.2 priorise les hautes performances avec l'efficacité des ressources, ce qui le rend adapté aux applications avec des frais généraux plus faibles.

Taille du paramètre

LLAMA 3.2 propose des versions allant de 1,3 milliard à 13 milliards de paramètres, permettant aux utilisateurs de choisir en fonction de leurs besoins.

Architecture

LLAMA 3.2 utilise l'attention groupée des requêtes, l'intégration de positionnel rotatif (corde) et les activations de Swiglu pour l'efficacité et les performances.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Llama 3.2 est open-source, avec un niveau gratuit et des options payantes pour les fonctionnalités étendues et le support.

Mistral Nemo

Mistral Nemo est un CLM compact et efficace conçu pour la compréhension et la génération du langage de haute qualité, mettant l'accent sur les performances et la facilité d'intégration.

Taille du paramètre

Mistral Nemo est disponible en versions de 1,3 milliard, 7 milliards et 13 milliards de paramètres.

Architecture

L'architecture basée sur le transformateur de Mistral Nemo utilise des mécanismes d'attention optimisés et des incorporations de jetons améliorées pour une utilisation et un débit de mémoire efficaces.

Disponibilité

Mistral Nemo est open-source.

Mistral Small 3

Mistral Small 3 gère environ 80% des tâches génératrices d'IA avec des exigences matérielles modestes.

Taille du paramètre

Mistral Small 3 a 24 milliards de paramètres, offrant des performances comparables à des modèles beaucoup plus grands. Il est déployable sur un seul GPU haut de gamme ou un ordinateur portable puissant.

Architecture

Mistral Small 3 utilise moins de couches que les modèles concurrents pour des performances à faible latence. Il est disponible en versions pré-formées et réglées par l'instruction.

Disponibilité

Mistral Small 3 est open-source (licence Apache 2.0), disponible sur Face, Olllama et Kaggle.

Tâches axées sur le raisonnement

O3-min

O3-MinI est un modèle compact atteignant des performances élevées malgré son nombre de paramètres réduit, ce qui le rend adapté aux appareils liés aux ressources.

Taille du paramètre

Le nombre de paramètres significativement réduit d'O3-MINI permet un fonctionnement efficace sur les appareils avec des ressources limitées.

Architecture

Dans le cadre de la série de modèles de raisonnement d'OpenAI, O3-MINI prend en charge l'entrée / sortie de texte et les niveaux de raisonnement réglable.

Disponibilité

O3-MinI est accessible via Chatgpt, API OpenAI, service Microsoft Azure OpenAI et routeur ouvert.

Phi-4

Le PHI-4 de Microsoft (14 milliards de paramètres) excelle dans les tâches de raisonnement tout en maintenant l'efficacité de calcul.

Taille du paramètre

Les 14 milliards de paramètres de PHI-4 sont optimisés pour l'efficacité du raisonnement et la réduction des demandes de calcul.

Architecture et formation

L'architecture et le processus de formation de PHI-4, y compris les techniques de génération de données synthétiques et de raffinement, améliorent ses capacités de raisonnement.

Disponibilité

PHI-4 est actuellement propriétaire.

Génération de texte

Distilgpt-2

Distilgpt-2 est une version plus petite et plus efficace de GPT-2, conservant la plupart de ses capacités tout en réduisant considérablement sa taille.

Taille du paramètre

Distilgpt-2 compte généralement environ 82 millions de paramètres, une réduction significative de GPT-2.

Architecture

Distilgpt-2 utilise une architecture de transformateur similaire à GPT-2 mais avec moins de couches, réalisée grâce à la distillation des connaissances.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Distilgpt-2 est open-source (visage étreint).

Smollm

SMOLLM est un modèle léger conçu pour une PNL efficace avec une empreinte de calcul réduite.

Taille du paramètre

Smollm offre différentes tailles, de 10 millions à 300 millions de paramètres.

Architecture

SMOLLM utilise des conceptions basées sur les transformateurs avec des méthodes d'élagage, de quantification et de calcul adaptatif pour l'efficacité.

Disponibilité

Smollm est open-source, avec un niveau gratuit et des options payantes.

Général NLU (classification du texte, analyse des sentiments, reconnaissance de l'entité nommée)

Minimil

Le miniilm de Microsoft est un modèle compact et efficace utilisant des techniques de distillation de connaissances.

Taille du paramètre

Minilm offre différentes tailles, de 22 millions à 384 millions de paramètres.

Architecture

Minilm utilise un mécanisme d'auto-atténuer profond, incorporant la distillation des connaissances pour transférer les performances d'un modèle plus large.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Minilm est open-source (visage étreint, github).

Mobiles

Mobilebert est une adaptation légère de Bert, conçue pour les appareils liés aux ressources.

Taille du paramètre

Mobilebert compte environ 25 millions de paramètres.

Architecture

Mobilebert utilise une structure goulot d'étranglement, des couches d'étranglement inversées et un quadruple réseau d'alimentation pour l'efficacité.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Mobilebert est open-source.

Microsoft Phi 3,5 Mini

Microsoft PHI 3.5 mini équilibre l'efficacité et les performances pour une compréhension solide du langage naturel avec des ressources limitées.

Taille du paramètre

PHI 3.5 Mini est disponible en versions de 1,3 milliard et 3 milliards de paramètres.

Architecture

L'architecture du transformateur de PHI 3.5 Mini utilise des mécanismes d'attention optimisés pour l'efficacité.

Disponibilité

Microsoft PHI 3.5 Mini est propriétaire, intégré aux services Microsoft Azure AI (niveaux gratuits et payants).

Gemma 2

Gemma 2 est conçue pour les tâches efficaces du NLU et de la génération, une précision d'équilibrage et une vitesse.

Taille du paramètre

Gemma 2 propose des versions avec 125 millions, 350 millions et 1,2 milliard de paramètres.

Architecture

Gemma 2 utilise une architecture de transformateur rationalisée avec des têtes d'attention dynamique et des améliorations de normalisation des calques.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Gemma 2 est open-source (licence permissive), avec des options gratuites et premium.

Tinybert

Tinybert est une version distillée de Bert, réduisant la complexité de calcul et l'empreinte de la mémoire.

Taille du paramètre

La plus petite version de Tinybert compte environ 14 millions de paramètres, tandis qu'une version plus grande compte environ 66 millions.

Architecture

Tinybert utilise une architecture de transformateur similaire pour Bert mais avec moins de couches et de dimensions réduites.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Tinybert est open-source (Apache License 2.0), accessible via des transformateurs de face étreintes.

Distilbert

Distilbert est une version plus petite, plus rapide et plus légère de Bert, conservant la plupart des performances de Bert.

Taille du paramètre

Distilbert compte environ 66 millions de paramètres.

Architecture

Distilbert simplifie l'architecture de Bert en réduisant le nombre de couches et en utilisant la distillation des connaissances.

Top 13 modèles de petits langues (SLM) pour 2025 - Analytics Vidhya

Disponibilité

Distilbert est open-source (étreintes transformateurs de face).

Conclusion

Les SLM révolutionnent la PNL en offrant un équilibre de performances, d'efficacité et d'accessibilité. Leur aptitude aux environnements liés aux ressources les rend idéaux pour diverses applications. Les modèles open-source et propriétaires stimulent l'innovation et élargissent l'accès aux technologies linguistiques avancées. À mesure que l'adoption de l'IA se développe, les SLM seront cruciaux pour l'échelle de la PNL efficace et inclusivement.

Questions fréquemment posées

Q1. Les petits modèles de langue peuvent-ils être utilisés hors ligne? R. Oui, leur nature légère permet un déploiement hors ligne sur divers appareils.

Q2. Comment les modèles de petits langues sont-ils affinés? A. Le réglage fin adapte un modèle pré-formé à une tâche spécifique à l'aide d'un ensemble de données plus petit.

Q3. Les petits modèles de langue sont-ils sécurisés et privés? A. Le déploiement local peut améliorer la sécurité et la confidentialité, mais les détails de mise en œuvre sont cruciaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Qu'est-ce que le protocole de contexte modèle (MCP)?Qu'est-ce que le protocole de contexte modèle (MCP)?Mar 03, 2025 pm 07:09 PM

Le protocole de contexte du modèle (MCP): un connecteur universel pour l'IA et les données Nous connaissons tous le rôle de l'IA dans le codage quotidien. Replit, GitHub Copilot, Black Box AI et Cursor IDE ne sont que quelques exemples de la façon dont AI rationalise nos flux de travail. Mais imaginez

Construire un agent de vision local utilisant omniparser v2 et omnitoolConstruire un agent de vision local utilisant omniparser v2 et omnitoolMar 03, 2025 pm 07:08 PM

Omniparser V2 et Omnitool de Microsoft: révolutionner l'automatisation de l'interface graphique avec l'IA Imaginez l'IA qui ne comprend pas seulement mais interagit également avec votre interface Windows 11 comme un professionnel chevronné. Omniparser v2 et omnitool de Microsoft en font un re

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!Mar 20, 2025 pm 03:34 PM

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Replit Agent: un guide avec des exemples pratiquesReplit Agent: un guide avec des exemples pratiquesMar 04, 2025 am 10:52 AM

Révolutionment du développement des applications: une plongée profonde dans l'agent de repelit Vous en avez assez de lutter avec des environnements de développement complexes et des fichiers de configuration obscurs? Replit Agent vise à simplifier le processus de transformation des idées en applications fonctionnelles. Cet ai-p

Guide de la piste ACT-ONE: Je me suis filmé pour le testerGuide de la piste ACT-ONE: Je me suis filmé pour le testerMar 03, 2025 am 09:42 AM

Ce billet de blog partage mon expérience de l'outil d'animation ACT-One de Test Testing Runway ML, couvrant à la fois son interface Web et son API Python. Bien que prometteurs, mes résultats étaient moins impressionnants que prévu. Vous voulez explorer une IA générative? Apprenez à utiliser les LLMS dans P

Comment utiliser YOLO V12 pour la détection d'objets?Comment utiliser YOLO V12 pour la détection d'objets?Mar 22, 2025 am 11:07 AM

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus!Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus!Mar 22, 2025 am 10:58 AM

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate ProjectElon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate ProjectMar 08, 2025 am 11:15 AM

Le projet de 500 milliards de dollars Stargate IA, soutenu par des géants de la technologie comme Openai, Softbank, Oracle et Nvidia, et soutenu par le gouvernement américain, vise à consolider la direction de l'IA américaine. Cette entreprise ambitieuse promet un avenir façonné par AI Advanceme

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.