Maison  >  Article  >  Périphériques technologiques  >  Pourquoi les petits modèles de langage sont-ils la prochaine grande nouveauté dans le monde de l'IA ?

Pourquoi les petits modèles de langage sont-ils la prochaine grande nouveauté dans le monde de l'IA ?

WBOY
WBOYoriginal
2024-06-01 22:35:351098parcourir

Traducteur | Bugatti

Chonglou

Dans le domaine de l'IA, les géants de la technologie se sont précipités pour construire de plus en plus Modèles linguistiques, maintenant J'ai une nouvelle tendance surprenante : petitest grand. Alors que les progrès dans les grands modèles de langage (LLM) montrent des signes de stagnation , les chercheurs et développeurs se tournent de plus en plus attention vers les petits modèles de langage (SLM) . Ce type de modèle d'IA compact, efficace et adaptable remet au défi le concept "plus grand, c'est mieux" et devrait changer la façon dont nous traitons le développement de l'IA. Le LLM commence-t-il à stagner ? Les résultats de comparaison des performances récemment publiés de

Pourquoi les petits modèles de langage sont-ils la prochaine grande nouveauté dans le monde de lIA ?

Vellum et

HuggingFace

montrent que l'écart de performance entre les LLM se réduit rapidement. Cette tendance est particulièrement évidente dans des tâches spécifiques telles que les questions à choix multiples, les problèmes de raisonnement et de mathématiques PerformanceLa différence est minime. Par exempleDans les questions à choix multiples, la précision de Claude 3 Opus, GPT-4 et Gemini Ultra sont toutes 83% Ci-dessus, tandis que dans la tâche d'inférence, la précision de Claude 3 Opus, GPT-4 et Gemini 1.5 Pro dépasse 92%. signifie que même modèles plus petits (comme Mixtral 8x7B et Llama 2 - 70B )

dans certains Aspects ont également montré des résultats surprenants, tels que le raisonnement et les questions à choix multiples Dans ces aspects, le petit modèle a surperformé Certains grands modèles . Cela suggère que la taille du modèle n'est peut-être pas le seul facteur déterminant les performances, mais que d'autres aspects tels que l'architecture, les données d'entraînement et les techniques de réglage fin peuvent jouer un rôle important. Uber ancien responsable de l'IA et auteur du livre "Rebooting AI"Gary Marcus a déclaré : " Si jetez un oeil à une douzaine articles récents , ils sont généralement au même

niveau que GPT-4 ""Rebooting Artificial Intelligence" Décrit comment construire une IA digne de confiance. Marcus a été interviewé jeudi par le média IT étranger "VentureBeat". "Certains d'entre eux sont un peu meilleurs que GPT-4, mais ce n'est pas un grand pas en avant. Je pense que tout le monde dira GPT-4 est meilleur que GPT- 3.5 C'est un grand progrès .

" a continué à rétrécir avec l'écart de performance, De plus en plus de modèles affichent des résultats assez compétitifs, ce qui soulève la question de savoir si LLM commence vraiment à stagner. Si cette tendance se poursuit, elle pourrait avoir un impact significatif sur le développement et le déploiement futurs des modèles linguistiques, et l'attention des gens pourrait passer de l'augmentation aveugle de la taille du modèle à une exploration plus efficace

,

plus spécialisée fermée architecture . Inconvénients de la

Méthode LLM

Bien qu'il soit indéniable que la fonction LLM soit puissante, elle présente également des défauts évidents. Premièrement, la formation LLM nécessite une grande quantité de données, nécessitant des milliards, voire des milliards de paramètres. Cela rend le processus de formation extrêmement gourmand en ressources, et la puissance de calcul et la consommation d'énergie nécessaires pour former et exécuter LLM sont également stupéfiantes. Cela a entraîné des coûts élevés, rendant difficile la participation des petites organisations ou des individus au développement de base du LLM. Lors d'un événement organisé par le MIT l'année dernière, le PDG de OpenAISam Altman a déclaré que la formation GPT-4 coûterait au moins 1 milliards de dollars américains. La complexité des outils et des techniques requis pour gérer le LLM

impose également une

courbe d'apprentissage abrupte devant les développeurs , limitant encore davantage l'accessibilité. De la formation du modèle à la construction et au déploiement, les développeurs sont confrontés à un cycle long, qui ralentit le développement et l'expérimentation. Un article récent de l'Université de Cambridge montre que les entreprises déployant un seul modèle d'apprentissage automatique seule peuvent prendre 90 jours ou plus temps . Un autre problème important avec les LLM est que ils ont tendance à halluciner - génèrent

un résultat qui semble raisonnable mais qui n'est pas réellement réel. Cela vient de la façon dont LLM est entraîné à prédire le prochain mot le plus probable en fonction des modèles présents dans les données d'entraînement, plutôt que de

vraiment connaître les informations . Ainsi, LLM peut en toute confiance faire de fausses déclarations, inventer des faits ou combiner des concepts sans rapport de manière ridicule. Détecter et atténuer cette illusionphénomène est un problème de longue date auquel on est confronté dans le développement de modèles de langage fiables. Marcus prévient : « Si vous utilisez LLM pour résoudre des problèmes importants,

vous

ne voulez pas insulter vos clients , obtenez un examen médical incorrect information , ou utilisation Cela vient avec la conduite d'une voiture. C'est toujours un problème. Le résultat est crucial pour instaurer la confiance . Les biais dans les données de formation et les algorithmes peuvent conduire à des résultats injustes, inexacts, voire nuisibles. Comme nous l'avons vu dans Google Gemini, la même technologie qui rend LLM « sécurisé » et

fiable réduit également son efficacité. De plus, la

nature concentrée des LLM soulève des inquiétudes quant à la concentration du pouvoir et du contrôle entre les mains de quelques grandes entreprises technologiques. Petit modèle de langage(SLM) entre en scèneCette fois, le petit modèle de langage entre en scène. SLM est une version simplifiée de LLM, avec moins de paramètres et une conception plus simple. Le données et

formation

temps dont ils ont besoin est plus court, juste des minutes ou des heures, tandis que le LLM prend des jours. Cela rend le déploiement

SLM

sur des appareils locaux ou de petite taille plus plus efficace et plus simple. L'un des principaux avantages des SLM est qu'ils sont adaptés à des applications environnements spécifiques. Parce que ils se concentrent sur une portée plus étroite et nécessitent moins de données, sont plus faciles à affiner pour un domaine ou une tâche spécifique que de grands modèles généraux. Cette personnalisation permet aux entreprises de créer des SLM très efficaces pour leurs besoins spécifiques , tels que l'analyse des sentiments

, la reconnaissance d'entités nommées ou la réponse à des questions spécifiques à un domaine. Par rapport à l'utilisation de modèles à usage général, les fonctionnalités spécialisées de SLM peuvent

améliorer ses performances et son efficacité dans ces environnements d'application cibles .

Un autre avantage de SLM est la promesse d'une confidentialité et d'une sécurité améliorées. Avec une base de code plus petite et une architecture plus simple, SLM est plus facile à auditer et moins susceptible de présenter des vulnérabilités inattendues. Cela les rend attrayants pour les applications environnements qui traitent des données sensibles, comme dans le domaine de la santé ou de la finance, où une violation de données pourrait entraîner de graves conséquences. De plus, les SLM ont réduit les exigences de calcul, ce qui les rend plus adaptés à une exécution sur des appareils ou des serveurs locaux plutôt qu'à une infrastructure cloud. Ce traitement local peut encore améliorer la sécurité des données, et réduire le risque que les données soient exposées lors de la transmission.

Par rapport au

LLM, SLM est moins sujet aux hallucinations non détectées dans des zones spécifiques. Les SLM sont généralement formés à l'aide d'ensembles de données plus étroits et plus ciblés qui sont uniques au domaine ou à l'environnement d'application prévu , ce qui aide le modèle à apprendre les modèles, le vocabulaire les plus pertinents pour sa tâche et ses informations. Cela réduit les chances de générer un résultat non pertinent, inattendu ou incohérent. En raison de l'utilisation de moins de paramètres et d'une architecture plus simple, SLM est moins susceptible de capturer et d'amplifier le bruit ou les erreurs dans les données d'entraînement. Clem Delangue, PDG de HuggingFace, une start-up d'IA en phase de démarrage, a déclaré que jusqu'à 99 % des cas d'utilisation peuvent être résolus à l'aide du SLM, et a prédit que 2024 sera l'année du SLM. La plate-forme de HuggingFace permet aux développeurs de créer, former et déployer des modèles d'apprentissage automatique, et la société a annoncé un partenariat stratégique avec Google plus tôt cette année. Les deux sociétés ont ensuite intégré HuggingFace dans Vertex AI de Google, permettant aux développeurs de déployer rapidement des milliers de modèles via le Vertex Model Garden de Google.

Google Gemma gagne du terrain Après avoir initialement cédé l'avantage de LLM à OpenAI, Google s'empare activement de Opportunités SLM. En février dernier,

Google

a lancé Gemma, une nouvelle famille de petits modèles de langage conçus pour améliorer l'efficacité et la convivialité. Comme les autres SLM, les modèles Gemma peuvent fonctionner sur une variété d'appareils communs

, tels que des smartphones, des tablettes ou des ordinateurs portables, sans nécessiter de matériel spécial ni d'optimisation

complète. Depuis la sortie de Gemma le mois dernier, le modèleentraîné a été téléchargé plus de 400 000 fois sur HuggingFace, et plusieurs commandes ont émergé Ex citant le projet. Par exemple, Cerule est une fonctionnalitépuissante modèle d'image et de langage qui combine Gemma 2B et SigLIP de Google, entraînée à l'aide de

ensembles de données étendus d'images et de texte. Cerule exploite des techniques efficaces de sélection de données pour atteindre des performances élevées sans nécessiter de grandes quantités de données ou de calculs. Cela signifie que Cerule pourrait être un bon choix pour les cas d’utilisation émergents de l’informatique de pointe.

Un autre exemple est CodeGemma, qui est une version spécialisée de Gemma qui se concentre sur le codageprogrammation et le raisonnement mathématique. CodeGemma propose trois modèles différents pour diverses activités liées à la programmation , rendant les outils de programmation avancés plus accessibles et plus efficaces pour les développeurs. L'énormepotentiel de

Alors que la communauté de l'IA continue d'explorer le potentiel des petits modèles de langage, des cycles de développement plus rapides, une plus grande efficacité et la capacité aux Les avantages tels que la personnalisation des modèles à des besoins spécifiques deviennent de plus en plus évidents. SLM devrait apporter des solutions rentables

, ciblées via , vulgariser l'accès à l'IA et stimuler l'innovation dans l'industrie. Le déploiement de SLM à la périphérie offre de nouvelles

possibilités pour des applications systèmes en temps réel, personnalisés et sécurisés dans secteurs tels que la finance, le divertissement, les systèmes automobiles, l'éducation, le commerce électronique et la santé.

En traitant les données localement et en réduisant la dépendance à l'égard de l'infrastructure cloud, edge computing combiné avec SLM peut améliorer les temps de réponse, améliorer la confidentialité des données et améliorer l'expérience utilisateur. Cette approche décentralisée de l'IA promet de transformer la façon dont les entreprises et les consommateurs interagissent avec la technologie , créant plus plus dans le monde réel. Expérience intuitive. Étant donné que le LLM est confronté à des défis liés aux ressources informatiques et peut rencontrer des goulots d'étranglement en termes de performances, la montée du LLM devrait permettre à l'écosystème AI de continuer à se développer à un rythme étonnant . Titre original :

Pourquoi les petits modèles de langage sont la prochaine grande nouveauté en IA, auteur : James Thomason

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn