Au-delà des LLM : voici pourquoi les petits modèles de langage sont l'avenir de l'IA-IA-php.cn

Maison

Périphériques technologiques

Au-delà des LLM : voici pourquoi les petits modèles de langage sont l'avenir de l'IA

Jennifer Aniston

Dec 13, 2024 pm 03:53 PM

Liens rapides

Qu'est-ce qu'un petit modèle de langage ?

Petits modèles de langage contre les grands modèles de langage

Pourquoi les petits modèles de langage sont l'avenir

Résumé

De grandes entreprises comme Open AI, Google, Microsoft et Meta investissent dans les SLM.
Les SLM gagnent en popularité dans l’industrie et sont mieux positionnés en tant que future IA.
Des exemples de SLM incluent Google Nano, le Phi-3 de Microsoft et le GPT-4o mini d'Open AI.

Les grands modèles de langage (LLM) sont entrés en scène avec la sortie de ChatGPT d'Open AI. Depuis, plusieurs entreprises ont également lancé leurs LLM, mais de plus en plus d'entreprises se tournent désormais vers les petits modèles de langage (SLM).

Les SLM prennent de l'ampleur, mais que sont-ils et en quoi diffèrent-ils des LLM ?

Qu'est-ce qu'un petit modèle de langage ?

Un petit modèle de langage (SLM) est un type de modèle d'intelligence artificielle avec moins de paramètres (considérez cela comme une valeur dans le modèle appris lors de la formation). Comme leurs homologues plus grands, les SLM peuvent générer du texte et effectuer d'autres tâches. Cependant, les SLM utilisent moins d'ensembles de données pour la formation, ont moins de paramètres et nécessitent moins de puissance de calcul pour s'entraîner et s'exécuter.

Les SLM se concentrent sur les fonctionnalités clés et leur faible encombrement signifie qu'ils peuvent être déployés sur différents appareils, y compris ceux qui ne disposent pas de matériel haut de gamme comme les appareils mobiles. Par exemple, le Nano de Google est un SLM intégré entièrement conçu et fonctionnant sur les appareils mobiles. En raison de sa petite taille, Nano peut fonctionner localement avec ou sans connectivité réseau, selon l'entreprise.

small language model gemini nano use examples — Google

En plus de Nano, il existe bien d'autres SLM d'entreprises leaders et émergentes dans le domaine de l'IA. Certains SLM populaires incluent le Phi-3 de Microsoft, le GPT-4o mini d'OpenAI, le Claude 3 Haiku d'Anthropic, le Llama 3 de Meta et le Mixtral 8x7B de Mistral AI.

D'autres options sont également disponibles, que vous pourriez penser être des LLM, mais qui le sont. SLM. Cela est particulièrement vrai si l'on considère que la plupart des entreprises adoptent une approche multimodèle consistant à publier plusieurs modèles de langage dans leur portefeuille, proposant à la fois des LLM et des SLM. Un exemple est GPT-4, qui propose différents modèles, dont GPT-4, GPT-4o (Omni) et GPT-4o mini.

Petits modèles de langage et grands modèles de langage

Lorsque nous discutons des SLM, nous ne pouvons pas ignorer leurs grands homologues : les LLM. La clé différence entre un SLM et un LLM est la taille du modèle, qui est mesurée en termes de paramètres.

Au moment d'écrire ces lignes, il n'y a pas de consensus dans l'industrie de l'IA sur le nombre maximum de paramètres qu'un modèle ne doit pas dépasser pour être considéré comme un SLM ou le nombre minimum requis pour être considéré comme un LLM. Cependant, les SLM ont généralement quelques millions à quelques milliards de paramètres, tandis que les LLM en ont plus, allant jusqu'à des milliards.

Par exemple, GPT-3, qui a été publié en 2020, a 175 milliards de paramètres (et le Selon les rumeurs, le modèle GPT-4 en compterait environ 1,76 billion), tandis que les Phi-3-mini, Phi-3-small et Phi-3-small 2024 de Microsoft Les SLM Phi-3-medium mesurent respectivement 3,8, 7 et 14 milliards de paramètres.

small language models versus large language models chart — Microsoft

Un autre facteur de différenciation entre les SLM et les LLM est la quantité de données utilisées pour la formation. Les SLM sont formés sur de plus petites quantités de données, tandis que les LLM utilisent de grands ensembles de données. Cette différence affecte également la capacité du modèle à résoudre des tâches complexes.

En raison des données volumineuses utilisées dans la formation, les LLM sont mieux adaptés à la résolution de différents types de tâches complexes qui nécessitent un raisonnement avancé, tandis que les SLM sont mieux adaptés à des tâches plus simples. tâches. Contrairement aux LLM, les SLM utilisent moins de données de formation, mais les données utilisées doivent être de meilleure qualité pour obtenir de nombreuses fonctionnalités des LLM dans un petit package.

Pourquoi les petits modèles linguistiques sont l'avenir

Pour la plupart des cas d'utilisation, les SLM sont mieux placés pour devenir les modèles courants utilisés par les entreprises et les consommateurs pour effectuer une grande variété de tâches. Bien sûr, les LLM ont leurs avantages et sont plus adaptés à certains cas d'utilisation, comme la résolution de tâches complexes. Cependant, les SLM sont l'avenir pour la plupart des cas d'utilisation pour les raisons suivantes.

1. Coûts de formation et de maintenance inférieurs

server raid configurations feature — Timofeev Vladimir/Shutterstock

Les SLM ont besoin de moins de données pour la formation que les LLM, ce qui en fait l'option la plus viable pour les particuliers et les petites et moyennes entreprises disposant de données de formation, de finances ou des deux limitées. Les LLM nécessitent de grandes quantités de données de formation et, par extension, d'énormes ressources informatiques pour s'entraîner et s'exécuter.

Pour mettre cela en perspective, le PDG d'OpenAI, Sam Altman, a confirmé qu'il leur a fallu plus de 100 millions de dollars pour se former. GPT-4 en parlant lors d'un événement au MIT (selon Wired). Un autre exemple est le LLM OPT-175B de Meta. Meta dit qu'il a été formé à l'aide de 992 GPU NVIDIA A100 de 80 Go, qui coûtent environ 10 000 $ par unité, selon CNBC. Cela porte le coût à environ 9 millions de dollars, sans inclure d'autres dépenses comme l'énergie, les salaires, etc.

Avec de tels chiffres, il n'est pas viable pour les petites et moyennes entreprises de former un LLM. En revanche, les SLM ont une barrière à l’entrée plus faible en termes de ressources et coûtent moins cher à gérer, et ainsi, davantage d’entreprises les adopteront.

2. Meilleures performances

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / Shutterstock

La performance est un autre domaine dans lequel les SLM battent les LLM en raison de leur taille compacte. Les SLM ont moins de latence et sont plus adaptés aux scénarios où des réponses plus rapides sont nécessaires, comme dans les applications en temps réel. Par exemple, une réponse plus rapide est préférable dans les systèmes de réponse vocale tels que les assistants numériques.

L'exécution sur l'appareil (nous en parlerons plus tard) signifie également que votre demande n'a pas besoin d'effectuer un déplacement vers des serveurs en ligne et de revenir à répondez à votre requête, ce qui conduit à des réponses plus rapides.

3. Plus précis

ZinetroN / Shutterstock

En matière d'IA générative, une chose reste constante : les déchets entrent, les déchets sortent. Les LLM actuels ont été formés à l’aide de grands ensembles de données Internet brutes. Ainsi, ils pourraient ne pas être précis dans toutes les situations. C'est l'un des problèmes de ChatGPT et des modèles similaires et c'est pourquoi vous ne devriez pas faire confiance à tout ce que dit un chatbot IA. D'un autre côté, les SLM sont formés à l'aide de données de meilleure qualité que les LLM et ont donc une plus grande précision.

Les SLM peuvent également être affinés davantage avec une formation ciblée sur des tâches ou des domaines spécifiques, conduisant à une meilleure précision dans ces domaines. zones par rapport aux modèles plus grands et plus généralisés.

4. Peut fonctionner sur l'appareil

small language model mockup on smartphone — Pete Hansen/Shutterstock

Les SLM nécessitent moins de puissance de calcul que les LLM et sont donc idéaux pour les cas d'informatique de pointe. Ils peuvent être déployés sur des appareils de pointe tels que les smartphones et les véhicules autonomes, qui ne disposent pas d'une grande puissance de calcul ou de ressources. Le modèle Nano de Google peut s'exécuter sur l'appareil, ce qui lui permet de fonctionner même lorsque vous ne disposez pas d'une connexion Internet active.

Cette capacité présente une situation gagnant-gagnant pour les entreprises et les consommateurs. Premièrement, c'est une victoire pour la confidentialité, car les données des utilisateurs sont traitées localement plutôt que envoyées vers le cloud, ce qui est important car de plus en plus d'IA sont intégrées dans nos smartphones, contenant presque tous les détails nous concernant. C'est également une victoire pour les entreprises, car elles n'ont pas besoin de déployer et d'exécuter de gros serveurs pour gérer les tâches d'IA.

Les SLM prennent de l'ampleur, avec les plus grands acteurs du secteur, tels qu'Open AI, Google, Microsoft, Anthropic et Meta, publiant de tels modèles. Ces modèles sont plus adaptés aux tâches plus simples, ce pour quoi la plupart d’entre nous utilisent les LLM ; par conséquent, ils sont l'avenir.

Mais les LLM ne mèneront nulle part. Au lieu de cela, ils seront utilisés pour des applications avancées qui combinent des informations provenant de différents domaines pour créer quelque chose de nouveau, comme dans la recherche médicale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

La Californie tape AI pour accélérer les permis de récupération des incendies de forêtMay 04, 2025 am 11:10 AM

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Ce que les États-Unis peuvent apprendre du gouvernement numérique propulsé par l'IA de l'EstonieMay 04, 2025 am 11:09 AM

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planification du mariage via une IA générativeMay 04, 2025 am 11:08 AM

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Que sont les agents de l'IA de la défense numérique?May 04, 2025 am 11:07 AM

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)May 03, 2025 am 11:14 AM

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

Cette startup utilise des agents d'IA pour lutterMay 03, 2025 am 11:13 AM

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Comment les modèles mondiaux sont radicalement remodeler l'avenir de l'IA génératrice et des LLMMay 03, 2025 am 11:12 AM

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

Mai Jour 2050: Qu'avons-nous laissé pour célébrer?May 03, 2025 am 11:11 AM

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C

See all articles