Maison > Article > Périphériques technologiques > Choisir le bon modèle de langage pour la PNL
Traducteur | Cui Hao
Réviseur | Sun Shujuan
Les grands modèles de langage (LLM) sont des modèles d'apprentissage en profondeur entraînés pour générer du texte. Avec des capacités impressionnantes, les LLM sont devenus le leader du traitement moderne du langage naturel (NLP). Traditionnellement, ils sont préformés par des établissements universitaires et de grandes entreprises technologiques telles que OpenAI, Microsoft et Nvidia. La plupart d’entre eux sont ensuite mis à la disposition du public. Cette approche plug-and-play constitue une étape importante vers des applications d'IA à grande échelle : les entreprises peuvent désormais se concentrer sur le réglage fin des modèles LLM existants pour des cas d'utilisation spécifiques, plutôt que de dépenser des ressources importantes pour former des modèles dotés de capacités linguistiques générales. .
Cependant, choisir le bon modèle pour votre application peut encore être délicat. Les utilisateurs et autres parties prenantes doivent faire des choix parmi un modèle linguistique dynamique et les scénarios d’innovation associés. Ces améliorations touchent différents composants du modèle de langage, notamment ses données de formation, ses objectifs de pré-formation, son architecture et ses méthodes de réglage fin - chaque aspect pourrait remplir un livre. En plus de toutes ces recherches, le halo marketing et IA entourant les modèles linguistiques a rendu les choses encore plus floues.
Cet article explique les principaux concepts et principes derrière les LLM. Son objectif est de fournir aux parties prenantes non techniques une compréhension intuitive et un langage permettant une interaction efficace avec les développeurs et les experts en IA. Pour étendre la couverture, l'article comprend une analyse ancrée dans un grand nombre de publications liées à la PNL. Même si nous n’entrerons pas dans les détails mathématiques des modèles de langage, ceux-ci peuvent être facilement récupérés à partir des références.
L'article est structuré comme suit : Premièrement, le modèle de langage est placé dans l'environnement évolutif de la PNL. La section 2 explique comment les LLM sont construits et pré-entraînés. Enfin, le processus de réglage fin est décrit et quelques conseils sur la sélection du modèle sont fournis.
Le langage est une compétence fascinante de l'esprit humain - c'est un protocole universel pour l'échange de connaissances et l'expression de pensées subjectives telles que des intentions, des opinions et les émotions. Dans l’histoire de l’intelligence artificielle, il y a eu de multiples vagues de recherche utilisant des moyens mathématiques pour approcher (« modéliser ») le langage humain. Avant l'ère de l'apprentissage profond, les représentations étaient basées sur des concepts algébriques et probabilistes simples tels que les représentations ponctuelles de mots, les modèles probabilistes de séquence et les structures récursives. Avec le développement de l’apprentissage profond au cours des dernières années, la précision, la complexité et l’expressivité des représentations linguistiques ont augmenté.
En 2018, BERT a été lancé en tant que premier LLM basé sur la nouvelle architecture Transformer. Depuis lors, le LLM basé sur Transformer a pris un fort essor. La modélisation du langage est particulièrement attractive de par sa généralité. Bien que de nombreuses tâches PNL du monde réel telles que l’analyse des sentiments, la récupération et l’extraction d’informations ne nécessitent pas de génération de langage, on suppose qu’un modèle de génération de langage possède également les compétences nécessaires pour résoudre une variété de défis linguistiques plus spécialisés.
L'apprentissage se fait sur une base paramétrique - des variables qui sont optimisées pendant l'entraînement pour obtenir la meilleure qualité de prédiction. À mesure que le nombre de paramètres augmente, le modèle est capable d’acquérir des connaissances plus granulaires et d’améliorer ses prédictions. Depuis l'introduction du premier lot de LLM en 2017-2018, nous avons assisté à une explosion exponentielle de la taille des paramètres - alors que le BERT révolutionnaire a été formé avec des paramètres 340M, le modèle sorti en 2022, Megatron-Turing NLG, a été formé avec le paramètre 530B. formation - augmenté de plus de mille fois.
Figure 1 : La taille des paramètres des modèles de langage augmente de façon exponentielle avec le temps
Par conséquent, le courant dominant fait sensation en utilisant un nombre toujours croissant de paramètres. Cependant, certains critiques soulignent que le taux de croissance des performances du modèle n’est pas cohérent avec le taux de croissance de la taille du modèle. En revanche, la pré-formation des modèles laisse une empreinte carbone considérable. La réduction des effectifs est urgente et rend les progrès en matière de modélisation linguistique plus durables.
La vision de LLM est compétitive et l'innovation est de courte durée. Le graphique ci-dessous présente les 15 modèles LLM les plus populaires au cours de la période 2018-2022, ainsi que leur part au fil du temps.
Figure 2 : Taux de mention et part des 15 modèles de langage les plus populaires
Nous pouvons constater que la plupart des modèles deviennent moins populaires dans un laps de temps relativement court. Pour garder une longueur d'avance, les utilisateurs doivent surveiller les innovations actuelles et évaluer si la mise à niveau en vaut la peine.
La plupart des LLM suivent un cycle de vie similaire : d'abord, « en amont », le modèle est pré-entraîné. En raison du volume élevé de données et des exigences informatiques, c'est principalement l'apanage des grandes entreprises technologiques et des universités. Récemment, il y a également eu des collaborations (telles que des ateliers BigScience) pour faire progresser conjointement le développement du domaine LLM. Une poignée de startups bien financées, telles que Cohere et AI21 Labs, proposent également un LLM pré-formé.
Après sa sortie, le modèle est adopté et déployé « en aval » par les développeurs et les entreprises axés sur les applications. À ce stade, la plupart des modèles nécessitent une étape de réglage supplémentaire pour s'adapter au domaine et à la tâche spécifiques. D’autres, comme GPT-3, sont plus pratiques car ils peuvent apprendre diverses tâches linguistiques directement pendant la prédiction (zéro ou peu de prédictions).
Enfin, le temps frappe à la porte et un meilleur modèle apparaît au coin de la rue - soit avec plus de paramètres, une utilisation plus efficace du matériel, soit une amélioration plus fondamentale de la modélisation du langage humain. Les modèles qui conduisent à une innovation substantielle peuvent donner naissance à des familles entières de modèles. Par exemple, BERT perdure dans BERT-QA, DistilBERT et RoBERTa, qui sont tous basés sur l'architecture d'origine.
Dans les chapitres suivants, nous explorerons les deux premières étapes de ce cycle de vie : la pré-formation et la mise au point pour le déploiement.
La plupart des équipes et des praticiens de la PNL ne participeront pas à la pré-formation du LLM, mais à sa mise au point et à son déploiement. Cependant, pour réussir à choisir et à utiliser un modèle, il est important de comprendre ce qui se passe « sous le capot ». Dans cette section, nous examinerons les ingrédients de base du LLM.
Chaque élément affectera non seulement la sélection, mais également le réglage fin et le déploiement du LLM.
La plupart des données utilisées pour la formation LLM sont des données textuelles couvrant différents styles, tels que la littérature, le contenu généré par les utilisateurs et les données d'actualité. Après avoir vu une variété de types de texte différents, le modèle résultant prend conscience des détails de la langue. En plus des données textuelles, le code est souvent utilisé comme entrée pour apprendre au modèle à générer des programmes et des extraits de code efficaces.
Comme prévu, la qualité des données d'entraînement a un impact direct sur les performances du modèle - ainsi que sur la taille requise du modèle. Si vous préparez vos données d'entraînement de manière plus intelligente, vous pouvez améliorer la qualité de votre modèle tout en réduisant la taille de ses données. Un exemple est le modèle T0, qui est 16 fois plus petit que GPT-3 mais le surpasse sur une gamme de tâches de référence. Voici l'astuce : au lieu d'utiliser n'importe quel texte comme données d'entraînement, il utilise directement la formule de la tâche, ce qui rend son signal d'apprentissage plus ciblé. La figure 3 illustre quelques exemples de formation.
Figure 3 : T0 formé sur un large éventail de tâches de langage explicites
Une dernière remarque sur les données de formation : Nous entendons souvent dire que les modèles de langage sont formés de manière non supervisée. Bien que cette approche soit séduisante, elle est techniquement erronée. Au contraire, un texte bien formaté fournit déjà les signaux d’apprentissage nécessaires, nous évitant ainsi le fastidieux processus manuel d’annotation des données. Les étiquettes à prédire correspondent à des mots passés et/ou futurs dans une phrase. En conséquence, l’annotation s’effectue automatiquement et à grande échelle, permettant des progrès relativement rapides dans le domaine.
Une fois les données de formation assemblées, nous devons les regrouper sous une forme que le modèle peut appliquer. Les réseaux de neurones sont alimentés par des structures algébriques (vecteurs et matrices), et la meilleure représentation algébrique du langage est une recherche continue, depuis des phrases simples jusqu'à des informations contextuelles hautement différenciées. Chaque nouvelle étape augmente la complexité du langage naturel et expose les limites des représentations actuelles.
L'unité de base du langage est le mot. Aux débuts de la PNL, cela a donné naissance à la représentation en sac de mots, qui regroupe tous les mots d'un texte, quel que soit leur ordre. Regardez ces deux exemples.
Dans le monde des sacs de mots, ces phrases seront exprimées exactement de la même manière car elles sont composées des mêmes mots. Évidemment, cela ne contient qu’une petite partie de leur signification.
La représentation séquentielle contient des informations sur l'ordre des mots. En apprentissage profond, le traitement des séquences a été initialement implémenté dans des réseaux de neurones récurrents (RNN) sensibles aux séquences. Cependant, en allant plus loin, la structure de base du langage n’est pas purement séquentielle mais hiérarchique. Autrement dit, nous ne parlons pas de listes, mais d’arbres. Les mots plus éloignés peuvent en réalité avoir des connexions syntaxiques et sémantiques plus fortes que les mots adjacents. Veuillez consulter l'exemple ci-dessous.
Ici, elle fait référence à cette fille. Au moment où un RNN atteint la fin de la phrase et la voit enfin, son souvenir du début de la phrase peut déjà s'estomper, ne lui permettant ainsi pas de rétablir la relation.
Pour résoudre ces dépendances à longue portée, des structures neuronales plus complexes ont été proposées pour construire une mémoire contextuelle plus discriminante. L’idée est de garder en mémoire les mots liés aux prédictions futures et d’oublier les autres. C’est la contribution des unités Long Short-Term Memory (LSTM) et des Gated Recurrent Units (GRU). Cependant, ces modèles ne sont pas optimisés pour l’emplacement spécifique à prédire, mais plutôt pour un contexte futur général. De plus, en raison de leur structure complexe, leur formation est encore plus lente que celle des RNN traditionnels.
Enfin, les gens ont abandonné la récursivité, ont proposé le mécanisme d'attention et l'ont incorporé dans l'architecture Transformer. L'attention permet au modèle de se concentrer entre différents mots lors de la prédiction. Chaque mot est pondéré en fonction de sa pertinence par rapport à l'emplacement spécifique à prédire. Pour la phrase ci-dessus, une fois que le modèle atteint la position « elle », la fille a un poids plus élevé qu'à, même si elle est beaucoup plus éloignée dans l'ordre linéaire.
Jusqu'à présent, le mécanisme d'attention est le plus proche du fonctionnement biologique du cerveau humain dans le traitement de l'information. La recherche montre que l’attention peut apprendre des structures syntaxiques hiérarchiques, notamment une série de phénomènes syntaxiques complexes. Il permet également le calcul parallèle pour une formation plus rapide et plus efficace.
Avec une représentation appropriée des données de formation, notre modèle peut commencer à apprendre. Il existe trois objectifs généraux pour les modèles de langage de pré-entraînement : la conversion séquence à séquence, l'autorégression et l'autoencodage. Tout cela nécessite que le modèle possède des connaissances linguistiques approfondies.
La tâche originale résolue par l'architecture codeur-décodeur et le modèle Transformer est la conversion séquence en séquence : une séquence est convertie en séquence dans un cadre de représentation différent. La tâche classique de séquence à séquence est la traduction automatique, mais d'autres tâches, telles que la synthèse, sont également souvent formulées de cette manière. Notez que la séquence cible ne doit pas nécessairement être du texte : il peut également s'agir d'autres données non structurées, telles que des images, ainsi que des données structurées, telles que des langages de programmation. Un exemple de LLM séquence à séquence est la série BART.
La deuxième tâche est la régression automatique, qui est également l'objectif initial de la modélisation du langage. En autorégression, le modèle apprend à prédire la prochaine sortie (jeton) en fonction des jetons précédents. Les signaux d’apprentissage sont limités par la nature unidirectionnelle de l’entreprise : le modèle ne peut utiliser que les informations provenant du côté droit ou gauche du jeton prédit. Il s’agit d’une limitation majeure car les mots peuvent dépendre à la fois de positions passées et futures. À titre d'exemple, considérons comment le verbe écrit affecte la phrase suivante dans les deux sens.
Ici, la position du papier est limitée à quelque chose d'inscriptible, tandis que la position de l'étudiant est limitée à un être humain, ou, en tout cas, à une autre entité intelligente capable d'écrire.
De nombreux LLM qui font la une des journaux d'aujourd'hui sont autorégressifs, notamment la série GPT, PaLM et BLOOM.
La troisième tâche - l'encodage automatique - résout le problème de l'unidirectionnalité. L’auto-encodage est très similaire à l’apprentissage des intégrations de mots classiques. Premièrement, nous corrompons les données d'entraînement en masquant une certaine proportion de jetons dans l'entrée (généralement 10 à 20 %). Le modèle apprend ensuite à reconstruire l'entrée correcte en fonction de son environnement, en tenant compte des marqueurs précédents et suivants. Un exemple typique d'encodeur automatique est la famille BERT, où BERT signifie Bidirectionnel Encoder Representation from Transformers.
Les composants de base d'un modèle de langage sont l'encodeur et le décodeur. L'encodeur transforme l'entrée brute en une représentation algébrique de grande dimension, également appelée vecteur « caché ». Attendez une minute – caché ? Eh bien, il n’y a en réalité pas de grand secret à ce stade. Bien sûr, vous pouvez regarder la représentation, mais un long vecteur de nombres ne transmettra rien de significatif à un être humain. Cela nécessite l’intelligence mathématique de notre modèle pour le gérer. Le décodeur reproduit la représentation cachée sous une forme compréhensible, telle qu'un autre langage, un code de programmation, une image, etc.
Figure 4 : Modèle de base de l'architecture encodeur-décodeur
L'architecture encodeur-décodeur a été initialement introduite pour les réseaux de neurones récurrents. Depuis l’introduction des modèles Transformer basés sur l’attention, la récursion traditionnelle a perdu de sa popularité, tandis que l’idée du codeur-décodeur a persisté. La plupart des tâches de compréhension du langage naturel (NLU) reposent sur des encodeurs, tandis que les tâches de génération de langage naturel (NLG) nécessitent des décodeurs et que la conversion séquence à séquence nécessite les deux composants.
Nous ne discuterons pas ici des détails de l'architecture et du mécanisme d'attention du Transformer. Pour ceux qui souhaitent maîtriser ces détails, soyez prêt à passer beaucoup de temps à les comprendre.
La modélisation du langage est une tâche puissante en amont - si vous avez un modèle de langage réussi, félicitations - c'est un modèle intelligent. Au lieu de cela, la PNL est principalement utilisée pour des tâches en aval plus ciblées telles que l'analyse des sentiments, la réponse aux questions et l'extraction d'informations. C’est à ce moment-là que l’apprentissage par transfert est appliqué et que les connaissances linguistiques existantes sont réutilisées pour relever des défis plus spécifiques. Lors du réglage fin, une partie du modèle est « gelée » et les parties restantes sont davantage entraînées avec les données d'un domaine ou d'une tâche spécifique.
Un réglage précis explicite ajoute de la complexité sur la route du déploiement du LLM. Cela peut également conduire à une explosion des modèles, où chaque tâche métier nécessite son propre modèle affiné, conduisant à une variété de modèles impossible à maintenir. Par conséquent, des efforts ont été faits pour utiliser peu ou pas d’étapes d’apprentissage pour se débarrasser de l’étape de réglage fin (comme dans GPT-3). Cet apprentissage se produit au cours du processus de prédiction : le modèle reçoit des "indices" - une description de la tâche et éventuellement quelques exemples de formation - pour guider ses prédictions des instances futures.
Bien que beaucoup plus rapide à mettre en œuvre, le facteur de commodité de zéro ou peu d’apprentissages est compensé par sa qualité de prédiction inférieure. De plus, bon nombre de ces modèles nécessitent un accès via des API cloud. Au début du développement, cela peut être une opportunité bienvenue, mais à des stades plus avancés, cela peut se transformer en une autre dépendance externe indésirable.
Compte tenu de l'offre constante de nouveaux modèles de langage sur le marché de l'IA, il peut être difficile de choisir le bon modèle pour une tâche en aval spécifique et de suivre le rythme de l'état. technologie de pointe.
Les documents de recherche comparent souvent chaque modèle sur des tâches et des ensembles de données spécifiques en aval. Les suites de tâches standardisées, telles que SuperGLUE et BIG-bench, permettent une analyse comparative unifiée de nombreuses tâches NLP et fournissent une base de comparaison. Cependant, il ne faut pas oublier que ces tests sont préparés dans un environnement hautement contrôlé. À l'heure actuelle, les capacités de généralisation des modèles linguistiques sont assez limitées. Par conséquent, le transfert vers des ensembles de données réels peut affecter considérablement les performances du modèle. L'évaluation et la sélection d'un modèle approprié doivent inclure la réalisation d'expériences sur des données aussi proches que possible des données de production.
En règle générale, l'objectif de pré-entraînement fournit un conseil important : les modèles autorégressifs fonctionnent bien dans les tâches de génération de texte telles que l'IA conversationnelle, la réponse aux questions et la synthèse de texte, tandis que les encodeurs automatiques excellent dans la "compréhension" et la structuration du langage, par exemple pour l'analyse des sentiments et diverses tâches d'extraction d'informations. En théorie, les modèles utilisés pour l'apprentissage du point zéro peuvent effectuer diverses tâches à condition qu'ils reçoivent des indications appropriées. Cependant, leur précision est généralement inférieure à celle des modèles affinés.
Pour rendre les choses plus concrètes, l'image ci-dessous montre comment les tâches PNL populaires sont liées aux modèles de langage importants dans la littérature PNL. Ces associations sont calculées sur la base de diverses mesures de similarité et d'agrégation, notamment l'intégration de la similarité et la cooccurrence pondérée en fonction de la distance. Les paires modèle-tâche les plus performantes, telles que BART/Text Summarization et LaMDA/Conversational AI, indiquent de bonnes correspondances basées sur les données historiques.
Figure 5 : Force d'association entre les modèles de langage et les tâches en aval
Dans cet article, nous avons couvert les concepts de base du LLM et les principaux niveaux où l'innovation a lieu. Le tableau ci-dessous présente un résumé des principales caractéristiques des LLM les plus populaires.
Tableau 1 : Résumé des caractéristiques des modèles linguistiques à grande échelle les plus populaires
Résumons les directives générales de sélection et de LLM.
1. Lorsque vous évaluez des modèles potentiels, indiquez clairement où vous en êtes dans le parcours de l'IA.
2. Pour s'aligner sur vos tâches en aval, l'équipe IA doit créer une liste restreinte de modèles basée sur les critères suivants.
Résultats de référence dans la littérature académique en mettant l'accent sur les tâches en aval
Cohérence entre les objectifs de pré-formation et les tâches en aval : pensez à l'auto-encodage pour le NLGU et à l'autorégression pour le NLG.
Expérience précédemment rapportée avec cette combinaison modèle-tâche.
3. Testez les modèles présélectionnés pour comprendre les tâches et les ensembles de données du monde réel afin d'avoir une première idée des performances.
4. Dans la plupart des cas, il est possible d'obtenir une meilleure qualité grâce à un réglage spécialisé. Cependant, si vous ne disposez pas des capacités techniques ou du budget en interne pour un réglage précis, ou si vous devez couvrir un grand nombre de tâches, envisagez un apprentissage réduit ou nul.
5.Les innovations et tendances LLM sont de courte durée. Lorsque vous travaillez avec des modèles de langage, soyez conscient de leur cycle de vie et de leur activité globale dans le domaine LLM, et soyez conscient des opportunités pour améliorer votre jeu.
Enfin, soyez conscient des limites des LLM. Bien qu’ils aient une capacité étonnante, semblable à celle des humains, à produire du langage, leurs capacités cognitives globales sont inférieures à celles de nous, les humains. La connaissance du monde et les capacités de raisonnement de ces modèles sont strictement limitées aux informations qu’ils trouvent à la surface du langage. Ils ne parviennent pas non plus à conserver les faits à temps et peuvent vous fournir des informations obsolètes sans sourciller. Si vous créez une application qui repose sur la génération de connaissances à jour, voire brutes, envisagez de combiner votre LLM avec des sources de connaissances multimodales, structurées ou dynamiques supplémentaires.
Lien original : https://www.topbots.com/choosing-the-right-langage-model/
Cui Hao, rédacteur de la communauté 51CTO, architecte senior, a 18 ans d'expérience en développement de logiciels et en architecture , 10 ans d'expérience en architecture distribuée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!