Maison > Article > Périphériques technologiques > Rendez la formation et l’inférence de grands modèles plus rapides que jamais ! Le résumé de fin d’année 2022 de Google, le quatrième
Bien que le Bard de Google se soit renversé, la force de l’IA de Google ne peut toujours pas être sous-estimée.
Depuis le début de l'année, la série de résumés de fin d'année de Google Research "Google Research, 2022 & Beyond" dirigée par Jeff Dean a été continuellement mise à jour, et elle a récemment été mise à jour avec le quatrième numéro.
Ce numéro a pour thème "Améliorer l'efficacité des modèles" Jetons un coup d'œil aux idées proposées par les ingénieurs de Google !
Au cours de la dernière décennie, l'apprentissage profond a connu un développement explosif, en grande partie grâce à l'intégration de nouveaux algorithmes et architectures, à l'augmentation significative des volumes de données et à l'amélioration de la puissance de calcul.
Par rapport à il y a dix ans, les modèles d'intelligence artificielle et d'apprentissage automatique sont devenus plus vastes et plus complexes, avec des structures de réseau plus profondes et plus complexes, plus de paramètres et plus de données utilisées dans la formation, qui, ensemble, favorisent certains des résultats les plus transformateurs. dans l’histoire de l’apprentissage automatique.
À mesure que ces modèles sont de plus en plus déployés dans les applications de production et métier, l’efficacité d’inférence et le coût d’exploitation du modèle sont passés d’un facteur secondaire à un facteur limitant majeur.
La réponse de Google à cet égard est de continuer à investir massivement dans l'efficacité de l'apprentissage automatique, en résolvant principalement les quatre problèmes suivants :
1. Architecture efficace (Efficient Architecture)
2. Efficacité des données.
3. Efficacité de la formation
4. Efficacité de l'inférence
En plus de l'efficacité, le modèle est également confronté à de nombreux problèmes liés à l'authenticité, à la sécurité, à la confidentialité et à la fraîcheur.
Cet article se concentrera sur une série de nouveaux algorithmes développés par Google Research pour relever les défis ci-dessus.
Une question fondamentale est la suivante : existe-t-il une meilleure façon de paramétrer le modèle pour améliorer l'efficacité ?
En 2022, Google Research se concentre sur les nouvelles technologies qui améliorent les modèles en récupérant le contexte, en mélangeant des experts pour rendre les transformateurs (au cœur de la plupart des grands modèles d'apprentissage automatique) plus efficaces, et en injectant des connaissances externes.
Modèles augmentés par contexte
Dans la recherche d'une qualité et d'une efficacité supérieures, les modèles neuronaux peuvent être améliorés à partir d'un contexte externe dans de grandes bases de données ou des mémoires pouvant être entraînées.
En tirant parti du contexte récupéré, les réseaux de neurones n'ont pas besoin de mémoriser une grande quantité de connaissances du monde dans leurs paramètres internes et sont capables d'obtenir une meilleure efficacité, interprétabilité et réalisme des paramètres.
Dans l'article "Traitement contextuel découplé pour la modélisation du langage augmentée par le contexte", les chercheurs explorent une architecture simple basée sur une architecture de codec découplée pour incorporer un contexte externe dans le modèle de langage.
Lien papier : https://arxiv.org/abs/2210.05758
Ce modèle peut considérablement économiser les efforts de calcul tout en ouvrant des domaines de modélisation de langage autorégressive et des résultats compétitifs sont donné sur la tâche de réponse aux questions.
Les grands modèles de langage (LLM) pré-entraînés consomment beaucoup d'informations grâce à l'autosupervision de grands ensembles de formation, mais on ne sait pas comment la « connaissance du monde » de ces modèles interagit avec le contexte d'entrée.
Grâce au réglage fin des connaissances (KAFT), les chercheurs combinent le contexte contrefactuel et le contexte non pertinent dans des ensembles de données supervisés standards, améliorant ainsi la contrôlabilité et la robustesse du sexe LLM.
L'un des problèmes liés à l'exploration des réseaux profonds modulaires est de savoir comment concevoir une base de données conceptuelle avec les modules informatiques correspondants. Les chercheurs ont proposé une architecture théorique pour stocker les « événements de mémorisation » sous forme de croquis dans une table LSH externe, qui comprend un module de pointeurs. pour gérer les croquis.
Une autre pièce du puzzle pour les modèles augmentés par le contexte est un accélérateur permettant de récupérer rapidement des informations à partir de grandes bases de données.
Les chercheurs ont développé un algorithme de recherche du voisin le plus proche basé sur le TPU qui est cohérent avec le modèle de performance du TPU et fournit des garanties analytiques pour le rappel attendu, ce qui se traduit par des performances optimales.
Les algorithmes de recherche impliquent généralement un grand nombre d'hyperparamètres et de choix de conception, ce qui les rend difficiles à optimiser sur de nouvelles tâches. Les chercheurs ont donc proposé un nouvel algorithme d'optimisation contraint pour ajuster automatiquement les hyperparamètres au coût ou au rappel souhaité. En entrée, l'algorithme produit des ajustements qui sont empiriquement très proches de la frontière de Pareto du rappel de vitesse et donnent des performances de pointe sur les benchmarks standards.
Modèle de mélange d'experts
Les modèles de mélange d'experts (MoE, Mixture-of-experts) se sont avérés être un moyen efficace d'augmenter la capacité des modèles de réseaux neuronaux sans augmenter excessivement leurs coûts de calcul. L'idée de base des MoE est de construire un réseau à partir de plusieurs sous-réseaux d'experts, où chaque entrée est traitée par un sous-réseau d'experts approprié.
Ainsi, par rapport aux réseaux de neurones standards, les MoE n'appellent qu'une petite partie de l'ensemble du modèle, améliorant ainsi l'efficacité des applications de modèles de langage telles que GLaM. La conception du routage est très difficile car les attentes du développeur sont que chaque modèle d'expert est approprié et ne le sera pas. sous-utilisés ou surutilisés.
Dans un travail récent, des chercheurs ont proposé Expert Choice Routing, un nouveau mécanisme de routage qui, au lieu d'attribuer chaque jeton d'entrée à des experts top-k, mais attribue à son tour chaque expert à des jetons top-k, qui peut ajuster automatiquement l'équilibrage de charge des experts tout en permettant naturellement à plusieurs experts de traiter les jetons d'entrée
Lien papier : https://openreview.net/pdf?id=jdJo1HIVinI
Transformateurs efficacesTransformer est actuellement le modèle séquence à séquence le plus populaire, de la vision à la compréhension du langage naturel, dans une série de fonctionnalités. Il a démontré de très bonnes performances dans des tâches difficiles.
Un composant essentiel de ce type de modèle est la couche d'attention, qui construit une « valeur » appropriée en calculant la similarité entre la « requête » et la combinaison pondérée « clé » (valeur). Bien que les performances soient élevées, l'efficacité de calcul du mécanisme d'attention n'est pas élevée et la complexité est généralement la seconde puissance de la longueur de la séquence d'entrée.
Alors que l'échelle de Transformer continue de s'étendre, la recherche sur l'une des questions importantes est très précieuse : s'il existe des structures naturelles ou des modèles d'apprentissage de modèles qui peuvent comprendre le principe de l'attention efficace.
À cet égard, Google Research a étudié les intégrations d'apprentissage des couches MLP intermédiaires et a constaté qu'elles sont très clairsemées. Par exemple, le modèle T5-large ne contient que
Lien papier : https://arxiv.org/pdf/2210.06313.pdf
Des chercheurs ont récemment proposé le modèle Treeformer, une alternative au calcul d'attention standard qui s'appuie sur des arbres de décision, qui permet intuitivement d'identifier rapidement un petit ensemble de clés pertinentes pour une requête et d'effectuer une attention uniquement sur cette opération de force définie. D’après l’expérience, Treeformer peut réduire de 30 fois les FLOP de la couche d’attention.
Dans le même temps, les chercheurs ont également introduit l'attention séquentielle, une méthode de sélection de caractéristiques différenciables qui combine l'attention et les algorithmes gloutons. Cette technologie s'est avérée directement et de manière transparente transférable aux modèles à grande échelle.
Une autre façon d'améliorer l'efficacité de Transformer est d'accélérer le calcul du softmax dans la couche d'attention.
Sur la base de la recherche sur l'approximation de bas rang du noyau softmax, les chercheurs ont proposé un nouveau type de caractéristiques aléatoires, fournissant la première approximation de caractéristiques aléatoires "positives et limitées" du noyau softmax, et la longueur de la séquence est calculée de manière linéaire. .
Lien papier : https://arxiv.org/abs/2205.15317
et a également proposé le premier mécanisme couvrant le masquage d'attention multiple, tel que le codage causal et le codage de position relative. .
Les méthodes d'optimisation efficaces sont la pierre angulaire des applications modernes d'apprentissage automatique et sont particulièrement importantes dans les environnements à grande échelle.
Dans ce cas, même les méthodes adaptatives de premier ordre comme Adam ont tendance à nécessiter beaucoup de calculs, et la stabilité de l'entraînement devient très difficile.
De plus, ces méthodes sont souvent sans rapport avec l'architecture du réseau neuronal et ne prennent pas en compte les informations structurelles au sein de l'architecture du modèle, ce qui entraîne une faible efficacité de la formation. Cela encourage également les nouvelles technologies à optimiser plus efficacement les modèles de réseaux neuronaux modernes. .
Google Research a développé de nouvelles techniques de formation basées sur l'architecture de modèle, par exemple pour former le réseau Transofmre, y compris le nouveau réseau Transofmre invariant à l'échelle et la nouvelle méthode de découpage, par rapport à la descente de gradient stochastique originale (SGD ) Lorsqu'elles sont combinées, la formation peut être accélérée.
Lien papier : https://arxiv.org/pdf/2202.00980.pdf
En utilisant cette méthode, les chercheurs ont réussi pour la première fois à utiliser uniquement un SGD simple. Entraîner efficacement BERT sans adaptabilité.
De plus, les chercheurs ont proposé une nouvelle méthode, LocoProp, pour obtenir des performances similaires à l'optimiseur de second ordre tout en utilisant les mêmes ressources de calcul et de mémoire que l'optimiseur de premier ordre.
LocoProp obtient une vue modulaire des réseaux de neurones en les décomposant en une combinaison de couches. Chaque couche peut alors avoir sa propre fonction de perte ainsi que des objectifs de sortie et des ajusteurs de poids. Avec cette configuration, après des passes de gradient avant et arrière appropriées, LocoProp continue d'effectuer des mises à jour parallèles de la « perte locale » de chaque couche.
Lien papier : https://proceedings.mlr.press/v151/amid22a.html
En fait, ces mises à jour sont théoriquement et empiriquement similaires à high -optimiseur d'ordre, LocoProp atteint des performances comparables à celles des optimiseurs d'ordre supérieur sur des tests d'encodeur automatique approfondis tout en étant nettement plus rapide.
Une hypothèse clé des optimiseurs comme SGD est que chaque point de données est échantillonné indépendamment et de manière identique à partir d'une distribution. Cependant, dans des contextes d'application réels tels que l'apprentissage par renforcement, il est difficile de satisfaire cette hypothèse car le modèle (. ou agent) doit apprendre des données générées en fonction de ses propres prédictions.
Les chercheurs ont proposé une nouvelle méthode d'algorithme appelée SGD avec relecture d'expérience inversée, qui peut être utilisée dans les systèmes dynamiques linéaires, les systèmes dynamiques non linéaires et le Q-learning d'apprentissage par renforcement. Trouvez la solution optimale dans ces circonstances.
Lien papier :https://arxiv.org/abs/2103.05896
De plus, il a été prouvé expérimentalement qu'une version améliorée de cette méthode, l'IER, est à la pointe de la technologie. -the-art, et il s'agit de la technologie de relecture d'expérience la plus stable sur divers benchmarks RL populaires.
Les réseaux neuronaux profonds s'appuient fortement sur de grands ensembles de données, ce qui entraîne des coûts de stockage et des problèmes potentiels de sécurité/confidentialité. La formation de réseaux neuronaux profonds modernes sur ces ensembles de données comporte également de nombreux défis.
Un moyen prometteur de résoudre ce problème est la sélection de sous-ensembles de données, où l'objectif de l'apprenant est de trouver le sous-ensemble le plus informatif parmi un grand nombre d'échantillons de formation pour aborder (ou même améliorer) la formation de l'ensemble de la formation. .
Les chercheurs ont analysé un cadre de sélection de sous-ensembles conçu pour fonctionner avec des familles de modèles arbitraires dans un environnement pratique par lots, où l'apprenant peut échantillonner un échantillon à la fois, en accédant au contexte et aux étiquettes de vérité terrain, mais afin de limiter les frais généraux, une fois qu'un lot d'échantillons suffisamment important est sélectionné, son statut ne peut qu'être mis à jour, c'est-à-dire que les poids du modèle peuvent être entraînés davantage.
et sur cette base, nous avons développé un algorithme appelé IWeS, qui sélectionne les échantillons par échantillonnage par importance, où la probabilité d'échantillonnage attribuée à chaque échantillon est basée sur l'entropie d'un modèle formé sur des lots précédemment sélectionnés. L'article fournit une analyse théorique qui démontre les limites de la généralisation et du taux d'échantillonnage.
Lien papier : https://arxiv.org/pdf/2301.12052.pdf
Un autre problème avec la formation des grands réseaux est qu'ils peuvent avoir un impact négatif sur ce qu'ils voir quand le déploiement est effectué. Les modifications des données de formation et de la distribution données à données sont très sensibles, en particulier lorsqu'il s'agit de quantités limitées de données de formation qui peuvent ne pas inclure tous les scénarios de temps de déploiement.
Une étude récente a émis l'hypothèse que le "biais d'extrême simplicité" est le problème clé derrière cette fragilité des réseaux de neurones, et ses derniers travaux rendent cette hypothèse réalisable, conduisant à deux nouvelles méthodes complémentaires DAFT et FRR. réseau neuronal puissant. En particulier, ces deux méthodes utilisent un réglage fin contradictoire et une prédiction de caractéristiques inverses pour améliorer la robustesse du réseau d'apprentissage. Il a été démontré que l'augmentation de la taille d'un réseau neuronal améliore son efficacité. précision des prédictions Cependant, exploiter ces avantages dans le monde réel est un défi car le coût de l'inférence pour les grands modèles peut être prohibitif, un problème qui a également incité à des stratégies visant à améliorer l'efficacité des services sans sacrifier la précision.
Les chercheurs ont proposé différentes stratégies pour atteindre cet objectif, notamment celles basées sur la distillation des connaissances et l'informatique adaptative.
Distillation
La plupart des cas d'utilisation de la distillation impliquent l'application directe de modèles de base à un domaine donné, avec une compréhension limitée du moment et du pourquoi de cette opération. Les recherches de Google cherchent à adapter la distillation à des circonstances spécifiques et examinent systématiquement les facteurs qui déterminent le succès de la distillation.
Du côté algorithmique, en modélisant soigneusement le bruit dans les étiquettes fournies par le modèle de l'enseignant, les chercheurs ont développé une méthode de principe pour repondérer les exemples de formation, et une méthode robuste pour échantillonner un sous-ensemble de données avec l'étiquette de l'enseignant.
Lien papier : https://arxiv.org/abs/2210.06711
Dans le processus de « formation guidée par les enseignants », les chercheurs ont proposé un nouveau cadre de distillation : au lieu d'utiliser passivement les enseignants pour étiqueter un ensemble de données fixes, les enseignants sont activement utilisés pour guider la sélection des échantillons d'informations à étiqueter, ce qui rend le processus de « formation guidée par les enseignants ». processus de distillation plus efficace dans des contextes de données limitées ou à longue traîne.
Lien papier : https://arxiv.org/abs/2208.06825
Également étudié à partir du double encodeur (tel que BERT) pour factoriser le dual Nouvelle méthode pour le dual- encodeur, qui est également un paramètre important pour évaluer la pertinence des paires (requête, document). L'écart de performances entre l'encodeur croisé et l'encodeur double est étudié dans le raisons de l'article, indiquant que cela peut être le résultat d'une généralisation plutôt que d'une limitation de capacité du double encodeur.
Une fonction de perte de distillation soigneusement construite peut atténuer cette situation et combler l'écart de performances entre les encodeurs croisés et les encodeurs doubles.
Par la suite, une amélioration supplémentaire de la distillation à double encodeur en faisant correspondre les intégrations du modèle d'enseignant a été étudiée plus en détail dans EmbedDistil. Cette stratégie peut également être utilisée pour extraire des informations de modèles à double encodeur, de grande à petite taille, où l'héritage et le gel des intégrations de documents de l'enseignant s'avèrent très efficaces.
Lien papier : https://arxiv.org/abs/2301.12005
offre une nouvelle perspective en théorie, à travers la distillation de la complexité supervisée, pour mesurer les étudiants. être capable de prédire les étiquettes des enseignants.
Lien papier : https://arxiv.org/abs/2301.12245
En utilisant la théorie du noyau tangent neuronal (NTK), certaines conclusions conceptuelles sont tirées, telles que : Les écarts de capacités peuvent affecter la distillation, dans la mesure où les étiquettes attribuées aux enseignants peuvent ressembler à des étiquettes purement aléatoires attribuées aux élèves.
Lien papier : https://arxiv.org/abs/2301.12923
En même temps, il est en outre prouvé que le point où la distillation conduit au sous-apprentissage des étudiants est également difficile pour l'enseignant de modéliser le problème. Intuitivement, cela pourrait aider les élèves à concentrer leurs capacités limitées sur les échantillons qui peuvent être raisonnablement modélisés.
Calcul adaptatif
Bien que la distillation soit une méthode efficace pour réduire le coût de l'inférence, son effet est uniforme sur tous les échantillons. Intuitivement, certains échantillons « simples » peuvent nécessiter essentiellement moins de calculs que des échantillons relativement « difficiles ». " des échantillons.
L'objectif de l'informatique adaptative est de concevoir des mécanismes capables d'effectuer de tels calculs dépendants de l'échantillon.
Confident Adaptive Language Modeling (CALM) introduit une fonctionnalité de sortie anticipée contrôlée pour les générateurs de texte basés sur Transformer tels que T5.
Lien papier : https://arxiv.org/abs/2207.07061
Dans cette forme de calcul adaptatif, le modèle modifie dynamiquement les couches du transformateur où la porte de sortie anticipée utilise une métrique de confiance avec un seuil de décision calibré pour répondre aux garanties de performances statistiques.
De cette façon, le modèle n'a besoin de calculer que la pile complète de couches de décodeur pour les prédictions les plus difficiles, et seulement quelques couches de décodeur pour les prédictions plus simples. En pratique, le modèle utilise environ un tiers de couches en moyenne pour les prédictions, ce qui entraîne une accélération de 2 à 3 fois tout en conservant le même niveau de qualité de génération.
Un mécanisme de calcul adaptatif couramment utilisé consiste en une cascade de deux modèles de base ou plus. La question clé est de décider s'il faut simplement utiliser les prédictions du modèle actuel ou reporter les prédictions aux modèles en aval. Une fonction de perte appropriée qui peut utiliser des signaux appropriés comme supervision pour reporter les décisions.
Google Research a systématiquement étudié les fonctions de perte existantes et a démontré qu'elles pourraient ne pas être adaptées à la formation d'échantillons en raison de l'application implicite du lissage des étiquettes. L'article a également montré que cette situation peut être atténuée grâce à une formation post-hoc de règles retardées, ce qui entraîne une formation. ne nécessite aucune modification des composants internes du modèle.
Lien papier : https://openreview.net/pdf?id=_jg6Sf6tuF7
Pour les applications de récupération, des techniques de recherche sémantique standard sont utilisées pour chaque intégration générée par de grands modèles. Représentation fixe, c'est-à-dire que la taille et les capacités de la représentation sont pour la plupart fixes, quelles que soient les tâches en aval et leur environnement informatique ou leurs contraintes associées.
L'apprentissage de la représentation Matriochka introduit la flexibilité d'ajuster la représentation en fonction de l'environnement de déploiement, forçant la représentation à avoir un ordre naturel dans ses coordonnées, de sorte que pour les environnements aux ressources limitées, seules les quelques coordonnées les plus élevées de la représentation soient utilisées ; pour des paramètres plus riches et critiques en termes de précision, vous pouvez utiliser davantage de coordonnées représentées.
Lien papier : https://openreview.net/pdf?id=9njZa1fm35
Lorsqu'elle est combinée avec des techniques standard de recherche approximative du voisin le plus proche, telles que l'analyse des réseaux neuronaux, MRL est capable de fournit jusqu'à 16 fois moins de calculs pour les mêmes mesures de rappel et de précision.
Les modèles d'apprentissage automatique à grande échelle démontrent des résultats transformateurs dans plusieurs domaines, mais l'efficacité de la formation et de l'inférence devient une exigence essentielle pour rendre ces modèles réalisables dans le monde réel.
En développant de nouvelles technologies de base, Google Research a réalisé des investissements importants pour rendre efficaces les modèles d'apprentissage automatique à grande échelle, ce qui nécessite également des efforts soutenus. À l'avenir, nous continuerons à explorer les principaux défis pour rendre les modèles d'apprentissage automatique plus robustes et efficaces. .
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!