Maison >Périphériques technologiques >IA >Après des modèles basiques comportant des dizaines ou des centaines de milliards de paramètres, entrons-nous dans une ère centrée sur les données ?

Après des modèles basiques comportant des dizaines ou des centaines de milliards de paramètres, entrons-nous dans une ère centrée sur les données ?

王林
王林avant
2023-05-08 08:46:361237parcourir

Ces dernières années, l'émergence de modèles de base tels que GPT-3, CLIP, DALL-E, Imagen et Stabile Diffusion a été étonnante. Les puissantes capacités génératives et les capacités d’apprentissage contextuel démontrées par ces modèles étaient inimaginables il y a quelques années à peine. Cet article explore la commercialisation de ces technologies à grande échelle. Ces modèles ne sont plus désormais l’apanage des géants de l’industrie. Leur valeur se reflète de plus en plus dans la description du domaine et des enjeux clés, et leur noyau est constitué de données. L’impact du développement rapide du modèle sous-jacent n’a pas encore été déterminé, tant de choses reposent sur des spéculations.

Après des modèles basiques comportant des dizaines ou des centaines de milliards de paramètres, entrons-nous dans une ère centrée sur les données ?

invite : "taco cat" (ne le prenez pas trop au sérieux)

Du point de vue de l'apprentissage automatique, le concept de tâche est absolument fondamental - nous créons des données d'entraînement pour spécifier le tâche et généralisation par la formation. Par conséquent, depuis des décennies, il existe deux points de vue principaux dans l'industrie :

  • "Entrée inutile, sortie inutile", c'est-à-dire que les informations de données/caractéristiques entrées dans le modèle déterminent le succès ou l'échec du modèle.
  • "Trop de paramètres conduiront à un surapprentissage." Au cours des 20 dernières années, le développement de modèles généraux et clairsemés est devenu populaire. La croyance commune est que les modèles clairsemés ont moins de paramètres, ce qui contribue à réduire le surapprentissage et donc à mieux généraliser.

Ces opinions sont généralement raisonnables, mais elles sont aussi quelque peu trompeuses.

Les modèles de base changent notre compréhension des tâches car ils peuvent être formés sur un large éventail de données et utilisés pour une variété de tâches. Même si certains utilisateurs ne comprennent pas clairement leurs tâches cibles, ils peuvent facilement appliquer ces modèles sans nécessiter de formation spécifique. Ces modèles peuvent être contrôlés à l'aide d'un langage naturel ou d'une interface, permettant aux experts du domaine de piloter l'utilisation des modèles et de vouloir immédiatement expérimenter la magie dans de nouveaux environnements. Dans ce processus d'exploration, la première étape pour les utilisateurs n'est pas de conserver un ensemble de données de formation spécifique, mais de jouer avec, d'imaginer et de répéter rapidement leurs idées. Avec le modèle de base en main, nous voulions en savoir plus sur la façon dont il était transféré à une gamme de tâches, dont beaucoup que nous n'avions pas encore envisagées.

Afin de bénéficier de la prochaine vague de développement de l’intelligence artificielle, nous devrons peut-être réexaminer les limites (et la sagesse) des opinions dominantes précédentes. Dans cet article, nous partirons de là, explorerons les changements pouvant être observés dans le modèle de base et terminerons par une discussion sur la manière dont nous envisageons l'intégration du modèle de base dans les approches traditionnelles.

Entrée inutile, sortie inutile - c'est tout ?

Les modèles de base sans tâches explosent, jusqu'à présent, ils concernaient en grande partie l'architecture et l'ingénierie des modèles, mais des signes de convergence de ces modèles commencent à apparaître. Existe-t-il un précédent où les données sont devenues le fondement et le point fondamental de différenciation ? Nous avons vu des allers-retours entre les approches centrées sur les modèles et celles centrées sur les données dans l’apprentissage automatique supervisé.

Dans une série de projets réalisés dans la seconde moitié des années 2010, la qualité des fonctionnalités était la clé. Dans l’ancien modèle, les fonctionnalités étaient des outils codant les connaissances du domaine. Ces caractéristiques sont moins stables et les praticiens du traitement doivent maîtriser les détails de bas niveau sur la façon de caractériser ces informations pour obtenir des prédictions plus stables et plus fiables.

Le deep learning réussit parce que les gens sont mauvais dans ce domaine. La révolution du deep learning bat son plein, et de nouveaux modèles émergent les uns après les autres sur arXiv, ce qui est vraiment choquant. Ces modèles reprennent des opérations auparavant manuelles, telles que l’ingénierie des fonctionnalités, et les automatisent entièrement. Le modèle est excellent et peut caractériser avec succès des données brutes telles que du texte et des images grâce à l'apprentissage en profondeur. Il s’agit d’une énorme augmentation de productivité. Cependant, ces modèles ne sont pas parfaits et il est important de continuer à comprendre ce domaine. Alors, comment intégrer cela dans votre modèle ?

Nous pouvons voir que les utilisateurs utilisent les données d'entraînement comme support pour saisir efficacement des informations, interpréter l'application et interagir avec le modèle. Tout cela se passe dans le « noir », sans outils, sans théories et sans résumés. Nous pensions que les utilisateurs devraient être capables de faire quelques abstractions de programmation de base sur leurs propres données, et c'est ainsi que le projet Snorkel (puis l'entreprise) est né. Au niveau de la connaissance, nous sommes ainsi entrés dans l’ère de l’IA centrée sur les données et de la faible supervision. Nous pouvons en tirer deux leçons importantes :

  • Une fois qu'une certaine technologie se stabilise, sa valeur reviendra aux données. Dans ce cas, avec l'émergence de technologies telles que TensorFlow, PyTorch, MXNet, Theano, etc., la technologie d'apprentissage en profondeur a commencé à être commercialisée, mais la description d'un problème spécifique n'a pas donné un large éventail de distribution de données, de spécifications de tâches, etc. Par conséquent, le succès dépend de la manière dont les informations pertinentes sont introduites dans le modèle 
  • Nous pouvons (et devons) gérer le bruit ; Les mathématiques et l’ingénierie de base peuvent en principe contribuer au traitement du bruit. Il est difficile pour les utilisateurs d'exprimer parfaitement leurs connaissances dans les données de formation, et la qualité des différentes sources de données peut varier. En étudiant la théorie de base de la supervision faible, nous avons découvert que les modèles peuvent apprendre beaucoup des données bruitées (toutes les données inutiles ne sont pas mauvaises). Cela dit, évitez de saisir des informations inutiles, mais ne soyez pas trop pointilleux sur les données non plus.

invite : "image bruyante". Avez-vous vu quelque chose d'intéressant dans l'image bruyante ?

En termes simples, les données codent vos questions et vos analyses - même si la technologie est banalisée, la valeur des données existe toujours. Ce n’est donc pas que les informations inutiles soient bonnes, mais ne faites pas cette distinction trop absolue. Les données sont utiles ou inutiles selon qu’elles sont exploitées de la manière la plus efficace.

Le modèle de base est formé sur la base d'une grande quantité de données et est largement utilisé dans diverses tâches, apportant de nouveaux défis à la gestion des données. Alors que les modèles/architectures continuent de se banaliser, nous devons comprendre comment gérer efficacement de grandes quantités de données pour garantir la généralisabilité des modèles.

Est-ce qu'un trop grand nombre de paramètres entraînera un surapprentissage ?

Pourquoi voyons-nous des fonctionnalités contextuelles magiques ? Comment les choix de modélisation (architecture et algorithmes) y contribuent-ils ? Les propriétés magiques des grands modèles de langage proviennent-elles de mystérieuses configurations de modèles ?

Il y a environ dix ans, la théorie générale de la généralisation de l'apprentissage automatique soutenait que si un modèle est trop parcimonieux (c'est-à-dire qu'il ne peut pas s'adapter à trop de fonctionnalités parasites), alors il se généralisera. On peut en avoir une description plus précise, qui sont des réalisations majeures dans des domaines théoriques tels que la dimension VC, la complexité de Rademacher, etc. Ce faisant, nous avons découvert qu’il semble qu’un petit nombre de paramètres soient également nécessaires à la généralisation. Mais ce n’est pas le cas. La surparamétrisation est un problème majeur, mais nous avons désormais de grands modèles comme contre-exemples : ces grands modèles (plus de paramètres que de points de données) peuvent s’adapter à toutes sortes de fonctions d’une complexité ahurissante, mais ils restent généraux. (même avec des étiquettes aléatoires).

L'idée de sur-paramétrisation nous induit en erreur, et des découvertes récentes ont ouvert de nouvelles directions. Nous voyons certaines fonctionnalités magiques émerger dans ces grands modèles, mais la croyance dominante est que ces fonctionnalités ne sont activées que par certaines architectures entraînées par des machines auxquelles peu de gens ont accès. L’une des orientations de nos efforts de recherche et d’autres est d’essayer d’implémenter ces caractéristiques magiques dans des modèles simples et classiques. Nos récents modèles d'espace d'états sont basés sur des décennies de travaux de traitement du signal (et correspondent donc aux modèles classiques) et présentent certaines capacités contextuelles.

Ce qui est encore plus surprenant, c'est que même le modèle bidirectionnel BERT classique a des capacités contextuelles ! Je crois qu'il y a encore beaucoup de gens qui écrivent des articles sur ce sujet. Vous pouvez nous les envoyer et nous les lirons attentivement et les citerons. Nous pensons que les caractéristiques magiques de l’apprentissage contextuel sont omniprésentes autour de nous et que l’univers est plus magique que nous ne le pensons. Ou, en y regardant de manière plus impartiale, peut-être que les humains ne sont tout simplement pas très doués pour comprendre la probabilité conditionnelle.

Les choses semblent bien fonctionner dans le cadre du grand modèle. Les caractéristiques magiques du modèle sous-jacent semblent stables et commercialisables, et les données sont considérées comme le point de différenciation au sein de celui-ci.

Peut-être est-ce l'ère des modèles de base centrés sur les données ?

Répétons-nous le virage de l'apprentissage supervisé centré sur les données ? En d’autres termes, les modèles et l’ingénierie sont-ils en train de devenir une marchandise ?

La montée des modèles banalisés et de l'information open source. Nous constatons que des modèles de base sont banalisés et utilisés – eh bien, cela ressemble à un « apprentissage en profondeur ». Pour nous, la plus grande preuve de la marchandisation d’un modèle est sa disponibilité. Il existe deux principales forces d’influence : les gens ont un besoin (stabilité, etc.) et les grandes entreprises peuvent en profiter. L'open source n'est pas né de l'intérêt des amateurs, mais parce que les grandes entreprises et d'autres acteurs extérieurs au gouvernement ont décidé qu'ils avaient besoin de quelque chose comme ça (voir The Rise of Python ).

En attendant que la dernière super entreprise lance un nouveau super modèle ?

Où vient la plus grande différence ? données! Ces outils sont de plus en plus disponibles, mais les modèles sous-jacents ne sont pas nécessairement immédiatement disponibles. Comment cela gère-t-il le déploiement ? En attendant que la nouvelle super entreprise lance un nouveau super modèle ? On peut dire que c'est un moyen ! Mais on appelle ça du nihilisme ! Il est difficile de dire si ce modèle sera open source, mais qu'en est-il des applications de modèle sous-jacentes qui ne peuvent pas envoyer de données privées à une API ? Le modèle comportera-t-il 100 000 milliards de paramètres – et combien d’utilisateurs pourront y accéder et l’utiliser ? Quel est le contenu de formation du modèle ? Le modèle est formé principalement sur des données publiques...

Il n'y a donc presque aucune garantie qu'il saura ce qui vous intéresse ? Comment conserver les propriétés magiques du modèle de base pour qu’il fonctionne pour vous ? Il est nécessaire de gérer efficacement les données du modèle sous-jacent (les données sont essentielles !) et de tirer pleinement parti des excellents modèles open source lors des tests (adapter les données d'entrée et contextuelles pendant les tests est essentiel !) :

Gestion des données et centré sur les données loi d'échelle ? Prédiction : des méthodes plus intelligentes de collecte d’ensembles de données conduisent à des modèles petits et esthétiques. Les articles sur le droit de l’échelle qui nous ont ouvert les yeux méritent notre attention : comme OpenAI, qui a étudié à l’origine la loi de l’échelle, et Chinchilla de DeepMind. Bien que nous ayons une architecture de référence par défaut (transformations), le nombre de jetons représente dans une certaine mesure le contenu informationnel des données. L’expérience nous montre que les données varient considérablement en termes de sujet et de qualité. Nous avons l’impression que ce qui compte vraiment, ce sont les éléments d’information réels qui se chevauchent et qui sont ordonnés : des concepts de la théorie de l’information comme l’entropie peuvent conduire à l’évolution des modèles à grande et petite base.

Saisie d'informations et calcul lors des tests. Le modèle de base n'est pas nécessairement disponible immédiatement, mais les calculs peuvent faire une grande différence lorsqu'ils sont testés de nouvelles manières. Compte tenu du coût et du manque de confidentialité liés à l'utilisation des API de modèles fermés, nous avons récemment lancé un modèle de base open source avec des paramètres 30 fois plus petits qui peuvent être battus au niveau de référence des spécifications en utilisant efficacement de petits modèles au moment du test. - Cette approche s'appelle Ask Me Anything (AMA) Prompting. Au moment du test, les utilisateurs contrôlent le modèle sous-jacent via des invites ou des descriptions en langage naturel des tâches qui les intéressent, et la conception des invites peut avoir un impact considérable sur les performances. Obtenir des invites précises est complexe et ardu, c'est pourquoi l'AMA recommande d'utiliser une série d'invites bruyantes de différentes qualités et d'utiliser la théorie statistique pour résoudre le problème du bruit. Il existe de nombreuses sources d'inspiration pour l'AMA : l'invite maïeutique, le recadrage du GPT-k, la chaîne d'IA et bien plus encore ! La clé est que nous pouvons effectuer des calculs au moment du test d'une nouvelle manière - pas besoin d'inviter le modèle une seule fois ! Il ne s'agit pas seulement de gérer les données au moment de la formation, mais également d'ajuster les données d'entrée et contextuelles au moment du test.

Après des modèles basiques comportant des dizaines ou des centaines de milliards de paramètres, entrons-nous dans une ère centrée sur les données ?

invite : "un très petit modèle d'IA"

De l'AMA, nous pouvons voir que les petits modèles ont déjà d'excellentes capacités de raisonnement pour répondre à une variété de tâches, alors que la valeur clé des grands modèles semble être Mémoriser des données factuelles. Les petits modèles fonctionnent mal sur les faits, alors comment introduire des données et des informations pour résoudre ce problème ? Curieusement, nous utilisons SGD pour stocker des faits dans un réseau neuronal, en les convertissant en valeurs à virgule flottante floues... l'abstraction semble beaucoup moins efficace qu'un magasin clé-valeur basé sur la DRAM. Cependant, en regardant les résultats de l'AMA, la différence entre les petits et les grands modèles est beaucoup plus petite en termes de faits variables dans le temps ou spécialisés dans un domaine... Chez Apple, nous devons être en mesure de modifier les faits que nous renvoyons lors de la construction de nos propres modèles. -des modèles supervisés (pour des raisons commerciales), ainsi que d'autres outils logiciels nécessaires au fonctionnement du service. Il est donc très important d’avoir l’index d’appel du modèle. Le temps nous dira si ce qui précède constitue une raison suffisante pour utiliser ce type de modèle.

Où cela nous mènera-t-il ? Les modèles de base côtoient les méthodes traditionnelles. En supposant que les modèles centrés sur les données progressent à la fois aux extrémités de l'exploration et du déploiement, pour des itérations rapides et des flux de travail indépendants des tâches - la phase d'exploration, nous rendons le modèle de base général prêt à l'emploi plus utile et efficace grâce à des stratégies de gestion des données et de temps de test. Les utilisateurs quitteront la phase d'exploration avec une définition de tâche plus claire, utiliseront une IA centrée sur les données et géreront les données d'entraînement (vos propres données sont importantes), de manière Snorkel en exploitant et en combinant plusieurs invites et/ou modèles de base. Entraînez-vous plus petit, plus rapidement. modèles « propriétaires ». Ces modèles peuvent être déployés dans des environnements de production réels et sont plus précis pour des tâches et des données spécifiques ! Le modèle sous-jacent peut également être utilisé pour améliorer les techniques faiblement supervisées, pour lesquelles certains membres du laboratoire et de Snorkel ont remporté des prix de l'AUI.

En dernière analyse, les données sont liées à la production finale du modèle. Les données sont la seule chose qui n’est pas marchandisée. Nous pensons toujours que la vision des données de Snorkel est la voie à suivre : vous avez besoin d'abstractions de programmation, d'un moyen d'exprimer, de combiner et de corriger de manière itérative des sources de données disparates et des signaux de supervision pour former des modèles déployables pour la tâche ultime.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer