Tokenformer : repenser les transformateurs en traitant les paramètres comme des jetons
Les Transformers ont transformé l'intelligence artificielle, offrant des performances inégalées en matière de PNL, de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l'échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle.
Les Transformers ont révolutionné l'intelligence artificielle, offrant des performances inégalées en matière de traitement du langage naturel (NLP), de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l’échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle. À mesure que ces modèles se développent, ils nécessitent des ressources matérielles et un temps de formation importants, qui augmentent de façon exponentielle avec la taille du modèle.
Le principal obstacle à la mise à l'échelle des transformateurs réside dans les paramètres fixes dans leurs couches de projection linéaire. Cette structure statique limite la capacité du modèle à se développer sans être entièrement recyclé, ce qui devient exponentiellement plus coûteux à mesure que la taille des modèles augmente. Ces modèles traditionnels exigent généralement un recyclage complet lorsque des modifications architecturales se produisent, telles que l'augmentation des dimensions des canaux.
Par conséquent, le coût de calcul de ces extensions devient peu pratique et l'approche manque de flexibilité. L'incapacité d'ajouter de nouveaux paramètres de manière dynamique étouffe la croissance, rendant ces modèles moins adaptables à l'évolution des applications d'IA et plus coûteux en termes de temps et de ressources.
Historiquement, les approches de gestion de l'évolutivité des modèles incluaient la duplication des pondérations ou la restructuration des modèles à l'aide de méthodes telles que Net2Net, où la duplication des neurones étend les couches. Cependant, ces approches perturbent souvent l'équilibre des modèles pré-entraînés, ce qui entraîne des taux de convergence plus lents et des complexités de formation supplémentaires.
Bien que ces méthodes aient fait des progrès progressifs, elles sont toujours confrontées à des limites dans la préservation de l'intégrité du modèle pendant la mise à l'échelle. Les transformateurs s'appuient fortement sur des projections linéaires statiques, ce qui rend l'expansion des paramètres coûteuse et peu flexible. Les modèles traditionnels comme le GPT et d'autres gros transformateurs sont souvent recyclés à partir de zéro, ce qui entraîne des coûts de calcul élevés à chaque nouvelle étape de mise à l'échelle.
Maintenant, des chercheurs de l'Institut Max Planck, de Google et de l'Université de Pékin ont développé une nouvelle architecture appelée Tokenformer qui réinvente fondamentalement les transformateurs en traitant les paramètres du modèle comme des jetons, permettant des interactions dynamiques entre les jetons et les paramètres.
Dans ce cadre, Tokenformer introduit un nouveau composant appelé couche d'attention aux paramètres de jeton (Pattention), qui facilite la mise à l'échelle incrémentielle. Le modèle peut ajouter de nouveaux jetons de paramètres sans recyclage, ce qui réduit considérablement les coûts de formation.
En représentant les jetons d'entrée et les paramètres dans le même cadre, Tokenformer permet une mise à l'échelle flexible, offrant aux chercheurs une architecture de modèle plus efficace et plus soucieuse des ressources qui conserve l'évolutivité et les hautes performances.
La couche Pattention de Tokenformer utilise des jetons d'entrée comme requêtes, tandis que les paramètres du modèle servent de clés et de valeurs, ce qui diffère de l'approche de transformateur standard, qui repose uniquement sur des projections linéaires.
La mise à l'échelle du modèle est obtenue en ajoutant de nouvelles paires de paramètres clé-valeur, en gardant constantes les dimensions d'entrée et de sortie et en évitant un recyclage complet. L'architecture de Tokenformer est conçue pour être modulaire, permettant aux chercheurs d'étendre le modèle de manière transparente en incorporant des jetons supplémentaires.
Cette capacité de mise à l'échelle incrémentielle prend en charge la réutilisation efficace des poids pré-entraînés tout en permettant une adaptation rapide à de nouveaux ensembles de données ou à des modèles de plus grande taille sans perturber les informations apprises.
Les avantages en termes de performances de Tokenformer sont notables, car le modèle réduit considérablement les coûts de calcul tout en conservant la précision. Par exemple, Tokenformer est passé de 124 millions à 1,4 milliard de paramètres avec seulement la moitié des coûts de formation typiques requis par les transformateurs traditionnels.
Dans une expérience, le modèle a atteint une perplexité de test de 11,77 pour une configuration de 1,4 milliard de paramètres, correspondant presque à la perplexité de 11,63 d'un transformateur de taille similaire formé à partir de zéro.
Cette efficacité signifie que Tokenformer peut atteindre des performances élevées dans plusieurs domaines, y compris les tâches de langage et de modélisation visuelle, pour une fraction de la dépense en ressources des modèles traditionnels.
Tokenformer présente de nombreux points clés pour faire progresser la recherche sur l'IA et améliorer les modèles basés sur des transformateurs. Ceux-ci incluent :
Le traitement des paramètres comme des jetons permet une mise à l'échelle incrémentielle du modèle sans recyclage.
La couche d'attention des paramètres de jeton facilite une expansion efficace des paramètres.
L'architecture modulaire prend en charge une croissance transparente du modèle en incorporant des jetons supplémentaires.
Le modèle atteint des performances élevées dans divers domaines avec une dépense de ressources minimale.
En conclusion, Tokenformer propose une approche transformatrice pour mettre à l'échelle des modèles basés sur des transformateurs. Cette architecture de modèle atteint l'évolutivité et l'efficacité des ressources en traitant les paramètres comme des jetons, en réduisant les coûts et en préservant les performances du modèle entre les tâches.
Cette flexibilité représente une percée dans la conception des transformateurs, fournissant un modèle capable de s'adapter aux exigences des applications d'IA avancées sans recyclage. L'architecture de Tokenformer est prometteuse pour les futures recherches sur l'IA, offrant une voie permettant de développer des modèles à grande échelle de manière durable et efficace.
Consultez le document, la page GitHub et les modèles sur HuggingFace.
Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. Si vous aimez notre travail, vous allez adorer notre newsletter. N'oubliez pas de rejoindre notre SubReddit 55k ML.
[Opportunité de parrainage avec nous] Faites la promotion de votre recherche/produit/webinaire auprès de 1 million de lecteurs mensuels et de 500 000 membres de la communauté
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

La décision a été prise en partie parce qu'un «chemin vers la rentabilité» n'était pas réaliste, a déclaré le co-fondateur de Gitcoin, Kevin Owocki, dans un communiqué.

Le prix XRP s'est stabilisé à 2,13 $, avec un volume de négociation de 24 heures de 2,33 milliards de dollars. Cependant, son élan a ralenti, laissant les investisseurs à la recherche du prochain choix de crypto.

L'investisseur et PDG de l'arche d'investissement de Cathe Wood projette que Bitcoin pourrait atteindre 1,5 million de dollars par pièce d'ici 2030

"Pour les crypto-monnaies, la liquidité du marché, même si cela peut sembler correct, est surtout pendant les crises naturellement remise en question"

Alors que le président américain Donald Trump a annoncé un retard de 90 jours pour les tarifs sur les importations de crypto-monnaie, les spéculateurs et les investisseurs ont commencé à décrire les risques potentiels pour le marché plus large des crypto-monnaies.

Cette pièce de monnaie sur le thème des Jeux olympiques est très recherchée par les collectionneurs si elle présente une conception spécifique.

Cette pièce est très appréciée par les collectionneurs si elle présente une conception spécifique.

Cette pièce de monnaie sur le thème des Jeux olympiques est très recherchée par les collectionneurs si elle présente une conception spécifique.

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Dreamweaver Mac
Outils de développement Web visuel

Version Mac de WebStorm
Outils de développement JavaScript utiles

Version crackée d'EditPlus en chinois
Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),
