


Au-delà des LLM : voici pourquoi les petits modèles de langage sont l'avenir de l'IA
Liens rapides
Résumé
- De grandes entreprises comme Open AI, Google, Microsoft et Meta investissent dans les SLM.
- Les SLM gagnent en popularité dans l’industrie et sont mieux positionnés en tant que future IA.
- Des exemples de SLM incluent Google Nano, le Phi-3 de Microsoft et le GPT-4o mini d'Open AI.
Les grands modèles de langage (LLM) sont entrés en scène avec la sortie de ChatGPT d'Open AI. Depuis, plusieurs entreprises ont également lancé leurs LLM, mais de plus en plus d'entreprises se tournent désormais vers les petits modèles de langage (SLM).
Les SLM prennent de l'ampleur, mais que sont-ils et en quoi diffèrent-ils des LLM ?
Qu'est-ce qu'un petit modèle de langage ?
Un petit modèle de langage (SLM) est un type de modèle d'intelligence artificielle avec moins de paramètres (considérez cela comme une valeur dans le modèle appris lors de la formation). Comme leurs homologues plus grands, les SLM peuvent générer du texte et effectuer d'autres tâches. Cependant, les SLM utilisent moins d'ensembles de données pour la formation, ont moins de paramètres et nécessitent moins de puissance de calcul pour s'entraîner et s'exécuter.
Les SLM se concentrent sur les fonctionnalités clés et leur faible encombrement signifie qu'ils peuvent être déployés sur différents appareils, y compris ceux qui ne disposent pas de matériel haut de gamme comme les appareils mobiles. Par exemple, le Nano de Google est un SLM intégré entièrement conçu et fonctionnant sur les appareils mobiles. En raison de sa petite taille, Nano peut fonctionner localement avec ou sans connectivité réseau, selon l'entreprise.
En plus de Nano, il existe bien d'autres SLM d'entreprises leaders et émergentes dans le domaine de l'IA. Certains SLM populaires incluent le Phi-3 de Microsoft, le GPT-4o mini d'OpenAI, le Claude 3 Haiku d'Anthropic, le Llama 3 de Meta et le Mixtral 8x7B de Mistral AI.
D'autres options sont également disponibles, que vous pourriez penser être des LLM, mais qui le sont. SLM. Cela est particulièrement vrai si l'on considère que la plupart des entreprises adoptent une approche multimodèle consistant à publier plusieurs modèles de langage dans leur portefeuille, proposant à la fois des LLM et des SLM. Un exemple est GPT-4, qui propose différents modèles, dont GPT-4, GPT-4o (Omni) et GPT-4o mini.
Petits modèles de langage et grands modèles de langage
Lorsque nous discutons des SLM, nous ne pouvons pas ignorer leurs grands homologues : les LLM. La clé différence entre un SLM et un LLM est la taille du modèle, qui est mesurée en termes de paramètres.
Au moment d'écrire ces lignes, il n'y a pas de consensus dans l'industrie de l'IA sur le nombre maximum de paramètres qu'un modèle ne doit pas dépasser pour être considéré comme un SLM ou le nombre minimum requis pour être considéré comme un LLM. Cependant, les SLM ont généralement quelques millions à quelques milliards de paramètres, tandis que les LLM en ont plus, allant jusqu'à des milliards.
Par exemple, GPT-3, qui a été publié en 2020, a 175 milliards de paramètres (et le Selon les rumeurs, le modèle GPT-4 en compterait environ 1,76 billion), tandis que les Phi-3-mini, Phi-3-small et Phi-3-small 2024 de Microsoft Les SLM Phi-3-medium mesurent respectivement 3,8, 7 et 14 milliards de paramètres.
Un autre facteur de différenciation entre les SLM et les LLM est la quantité de données utilisées pour la formation. Les SLM sont formés sur de plus petites quantités de données, tandis que les LLM utilisent de grands ensembles de données. Cette différence affecte également la capacité du modèle à résoudre des tâches complexes.
En raison des données volumineuses utilisées dans la formation, les LLM sont mieux adaptés à la résolution de différents types de tâches complexes qui nécessitent un raisonnement avancé, tandis que les SLM sont mieux adaptés à des tâches plus simples. tâches. Contrairement aux LLM, les SLM utilisent moins de données de formation, mais les données utilisées doivent être de meilleure qualité pour obtenir de nombreuses fonctionnalités des LLM dans un petit package.
Pourquoi les petits modèles linguistiques sont l'avenir
Pour la plupart des cas d'utilisation, les SLM sont mieux placés pour devenir les modèles courants utilisés par les entreprises et les consommateurs pour effectuer une grande variété de tâches. Bien sûr, les LLM ont leurs avantages et sont plus adaptés à certains cas d'utilisation, comme la résolution de tâches complexes. Cependant, les SLM sont l'avenir pour la plupart des cas d'utilisation pour les raisons suivantes.
1. Coûts de formation et de maintenance inférieurs

Les SLM ont besoin de moins de données pour la formation que les LLM, ce qui en fait l'option la plus viable pour les particuliers et les petites et moyennes entreprises disposant de données de formation, de finances ou des deux limitées. Les LLM nécessitent de grandes quantités de données de formation et, par extension, d'énormes ressources informatiques pour s'entraîner et s'exécuter.
Pour mettre cela en perspective, le PDG d'OpenAI, Sam Altman, a confirmé qu'il leur a fallu plus de 100 millions de dollars pour se former. GPT-4 en parlant lors d'un événement au MIT (selon Wired). Un autre exemple est le LLM OPT-175B de Meta. Meta dit qu'il a été formé à l'aide de 992 GPU NVIDIA A100 de 80 Go, qui coûtent environ 10 000 $ par unité, selon CNBC. Cela porte le coût à environ 9 millions de dollars, sans inclure d'autres dépenses comme l'énergie, les salaires, etc.
Avec de tels chiffres, il n'est pas viable pour les petites et moyennes entreprises de former un LLM. En revanche, les SLM ont une barrière à l’entrée plus faible en termes de ressources et coûtent moins cher à gérer, et ainsi, davantage d’entreprises les adopteront.
2. Meilleures performances

La performance est un autre domaine dans lequel les SLM battent les LLM en raison de leur taille compacte. Les SLM ont moins de latence et sont plus adaptés aux scénarios où des réponses plus rapides sont nécessaires, comme dans les applications en temps réel. Par exemple, une réponse plus rapide est préférable dans les systèmes de réponse vocale tels que les assistants numériques.
L'exécution sur l'appareil (nous en parlerons plus tard) signifie également que votre demande n'a pas besoin d'effectuer un déplacement vers des serveurs en ligne et de revenir à répondez à votre requête, ce qui conduit à des réponses plus rapides.
3. Plus précis

En matière d'IA générative, une chose reste constante : les déchets entrent, les déchets sortent. Les LLM actuels ont été formés à l’aide de grands ensembles de données Internet brutes. Ainsi, ils pourraient ne pas être précis dans toutes les situations. C'est l'un des problèmes de ChatGPT et des modèles similaires et c'est pourquoi vous ne devriez pas faire confiance à tout ce que dit un chatbot IA. D'un autre côté, les SLM sont formés à l'aide de données de meilleure qualité que les LLM et ont donc une plus grande précision.
Les SLM peuvent également être affinés davantage avec une formation ciblée sur des tâches ou des domaines spécifiques, conduisant à une meilleure précision dans ces domaines. zones par rapport aux modèles plus grands et plus généralisés.
4. Peut fonctionner sur l'appareil

Les SLM nécessitent moins de puissance de calcul que les LLM et sont donc idéaux pour les cas d'informatique de pointe. Ils peuvent être déployés sur des appareils de pointe tels que les smartphones et les véhicules autonomes, qui ne disposent pas d'une grande puissance de calcul ou de ressources. Le modèle Nano de Google peut s'exécuter sur l'appareil, ce qui lui permet de fonctionner même lorsque vous ne disposez pas d'une connexion Internet active.
Cette capacité présente une situation gagnant-gagnant pour les entreprises et les consommateurs. Premièrement, c'est une victoire pour la confidentialité, car les données des utilisateurs sont traitées localement plutôt que envoyées vers le cloud, ce qui est important car de plus en plus d'IA sont intégrées dans nos smartphones, contenant presque tous les détails nous concernant. C'est également une victoire pour les entreprises, car elles n'ont pas besoin de déployer et d'exécuter de gros serveurs pour gérer les tâches d'IA.
Les SLM prennent de l'ampleur, avec les plus grands acteurs du secteur, tels qu'Open AI, Google, Microsoft, Anthropic et Meta, publiant de tels modèles. Ces modèles sont plus adaptés aux tâches plus simples, ce pour quoi la plupart d’entre nous utilisent les LLM ; par conséquent, ils sont l'avenir.
Mais les LLM ne mèneront nulle part. Au lieu de cela, ils seront utilisés pour des applications avancées qui combinent des informations provenant de différents domaines pour créer quelque chose de nouveau, comme dans la recherche médicale.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Version Mac de WebStorm
Outils de développement JavaScript utiles

SublimeText3 version anglaise
Recommandé : version Win, prend en charge les invites de code !

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux
