recherche
Maisonweb3.0Tokenformer : repenser les transformateurs en traitant les paramètres comme des jetons

Tokenformer : repenser les transformateurs en traitant les paramètres comme des jetons

Nov 04, 2024 am 12:36 AM
ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

Les Transformers ont transformé l'intelligence artificielle, offrant des performances inégalées en matière de PNL, de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l'échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle.

Tokenformer : repenser les transformateurs en traitant les paramètres comme des jetons

Les Transformers ont révolutionné l'intelligence artificielle, offrant des performances inégalées en matière de traitement du langage naturel (NLP), de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l’échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle. À mesure que ces modèles se développent, ils nécessitent des ressources matérielles et un temps de formation importants, qui augmentent de façon exponentielle avec la taille du modèle.

Le principal obstacle à la mise à l'échelle des transformateurs réside dans les paramètres fixes dans leurs couches de projection linéaire. Cette structure statique limite la capacité du modèle à se développer sans être entièrement recyclé, ce qui devient exponentiellement plus coûteux à mesure que la taille des modèles augmente. Ces modèles traditionnels exigent généralement un recyclage complet lorsque des modifications architecturales se produisent, telles que l'augmentation des dimensions des canaux.

Par conséquent, le coût de calcul de ces extensions devient peu pratique et l'approche manque de flexibilité. L'incapacité d'ajouter de nouveaux paramètres de manière dynamique étouffe la croissance, rendant ces modèles moins adaptables à l'évolution des applications d'IA et plus coûteux en termes de temps et de ressources.

Historiquement, les approches de gestion de l'évolutivité des modèles incluaient la duplication des pondérations ou la restructuration des modèles à l'aide de méthodes telles que Net2Net, où la duplication des neurones étend les couches. Cependant, ces approches perturbent souvent l'équilibre des modèles pré-entraînés, ce qui entraîne des taux de convergence plus lents et des complexités de formation supplémentaires.

Bien que ces méthodes aient fait des progrès progressifs, elles sont toujours confrontées à des limites dans la préservation de l'intégrité du modèle pendant la mise à l'échelle. Les transformateurs s'appuient fortement sur des projections linéaires statiques, ce qui rend l'expansion des paramètres coûteuse et peu flexible. Les modèles traditionnels comme le GPT et d'autres gros transformateurs sont souvent recyclés à partir de zéro, ce qui entraîne des coûts de calcul élevés à chaque nouvelle étape de mise à l'échelle.

Maintenant, des chercheurs de l'Institut Max Planck, de Google et de l'Université de Pékin ont développé une nouvelle architecture appelée Tokenformer qui réinvente fondamentalement les transformateurs en traitant les paramètres du modèle comme des jetons, permettant des interactions dynamiques entre les jetons et les paramètres.

Dans ce cadre, Tokenformer introduit un nouveau composant appelé couche d'attention aux paramètres de jeton (Pattention), qui facilite la mise à l'échelle incrémentielle. Le modèle peut ajouter de nouveaux jetons de paramètres sans recyclage, ce qui réduit considérablement les coûts de formation.

En représentant les jetons d'entrée et les paramètres dans le même cadre, Tokenformer permet une mise à l'échelle flexible, offrant aux chercheurs une architecture de modèle plus efficace et plus soucieuse des ressources qui conserve l'évolutivité et les hautes performances.

La couche Pattention de Tokenformer utilise des jetons d'entrée comme requêtes, tandis que les paramètres du modèle servent de clés et de valeurs, ce qui diffère de l'approche de transformateur standard, qui repose uniquement sur des projections linéaires.

La mise à l'échelle du modèle est obtenue en ajoutant de nouvelles paires de paramètres clé-valeur, en gardant constantes les dimensions d'entrée et de sortie et en évitant un recyclage complet. L'architecture de Tokenformer est conçue pour être modulaire, permettant aux chercheurs d'étendre le modèle de manière transparente en incorporant des jetons supplémentaires.

Cette capacité de mise à l'échelle incrémentielle prend en charge la réutilisation efficace des poids pré-entraînés tout en permettant une adaptation rapide à de nouveaux ensembles de données ou à des modèles de plus grande taille sans perturber les informations apprises.

Les avantages en termes de performances de Tokenformer sont notables, car le modèle réduit considérablement les coûts de calcul tout en conservant la précision. Par exemple, Tokenformer est passé de 124 millions à 1,4 milliard de paramètres avec seulement la moitié des coûts de formation typiques requis par les transformateurs traditionnels.

Dans une expérience, le modèle a atteint une perplexité de test de 11,77 pour une configuration de 1,4 milliard de paramètres, correspondant presque à la perplexité de 11,63 d'un transformateur de taille similaire formé à partir de zéro.

Cette efficacité signifie que Tokenformer peut atteindre des performances élevées dans plusieurs domaines, y compris les tâches de langage et de modélisation visuelle, pour une fraction de la dépense en ressources des modèles traditionnels.

Tokenformer présente de nombreux points clés pour faire progresser la recherche sur l'IA et améliorer les modèles basés sur des transformateurs. Ceux-ci incluent :

Le traitement des paramètres comme des jetons permet une mise à l'échelle incrémentielle du modèle sans recyclage.

La couche d'attention des paramètres de jeton facilite une expansion efficace des paramètres.

L'architecture modulaire prend en charge une croissance transparente du modèle en incorporant des jetons supplémentaires.

Le modèle atteint des performances élevées dans divers domaines avec une dépense de ressources minimale.

En conclusion, Tokenformer propose une approche transformatrice pour mettre à l'échelle des modèles basés sur des transformateurs. Cette architecture de modèle atteint l'évolutivité et l'efficacité des ressources en traitant les paramètres comme des jetons, en réduisant les coûts et en préservant les performances du modèle entre les tâches.

Cette flexibilité représente une percée dans la conception des transformateurs, fournissant un modèle capable de s'adapter aux exigences des applications d'IA avancées sans recyclage. L'architecture de Tokenformer est prometteuse pour les futures recherches sur l'IA, offrant une voie permettant de développer des modèles à grande échelle de manière durable et efficace.

Consultez le document, la page GitHub et les modèles sur HuggingFace.

Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. Si vous aimez notre travail, vous allez adorer notre newsletter. N'oubliez pas de rejoindre notre SubReddit 55k ML.

[Opportunité de parrainage avec nous] Faites la promotion de votre recherche/produit/webinaire auprès de 1 million de lecteurs mensuels et de 500 000 membres de la communauté

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
L'esprit de la technologie AI avancée de Pepe le positionne pour diriger le marché des pièces mèmesL'esprit de la technologie AI avancée de Pepe le positionne pour diriger le marché des pièces mèmesApr 12, 2025 am 10:14 AM

Mind of Pepe représente la prochaine évolution de l'espace de monnaie de mèmes, mélangeant l'humour des mèmes Internet emblématiques avec une technologie de pointe de l'intelligence artificielle (IA).

À mesure que Bitcoin gagne le statut de macro, les investisseurs se tournent pour sécuriser les solutions miniersÀ mesure que Bitcoin gagne le statut de macro, les investisseurs se tournent pour sécuriser les solutions miniersApr 12, 2025 am 10:12 AM

Les crypto-monnaies faisant partie des réserves stratégiques américaines en vertu des politiques récentes, les investisseurs avertis explorent des opportunités de revenu stables au-delà de la spéculation sur le marché.

Le CRV s'est rallié à la suite du dernier ordre législatif de TrumpLe CRV s'est rallié à la suite du dernier ordre législatif de TrumpApr 12, 2025 am 10:10 AM

Au cours des dernières 24 heures, Curve Dao [CRV] a vu un rassemblement important après la dernière ordonnance législative de Trump, qui protège décentralisé

Mutuum Finance (MUTM) Hype de prévente monte de 300% en volume de négociation à 1,61 milliard de dollars, ciblant 3,50 $ à 4,50 $ après le lancementMutuum Finance (MUTM) Hype de prévente monte de 300% en volume de négociation à 1,61 milliard de dollars, ciblant 3,50 $ à 4,50 $ après le lancementApr 12, 2025 am 10:08 AM

Cardano (ADA) fait face à une baisse des prix de 13,5% du cou à 0,55 $, ce qui a suscité les craintes des investisseurs institutionnels. Et les nouveaux volumes de négociation de Cardano (ADA) ont grimpé de 300% à 1,61 milliard de dollars sur 24 heures - un signe de liquidations frénétiques en tant que financier mondial

Bitcoin (BTC) montre des signes de récupération après avoir plongé plus de 30% de son sommet de tous les tempsBitcoin (BTC) montre des signes de récupération après avoir plongé plus de 30% de son sommet de tous les tempsApr 12, 2025 am 10:06 AM

Après avoir plongé plus de 30% par rapport à son sommet de tous les temps et en baisse brièvement en dessous de 75 000 $, Bitcoin montre des signes de récupération.

Les meilleures crypto-monnaies comme Fartcoin, Bonk, Jasmy et les prix des finances d'Ondo ont augmenté vendrediLes meilleures crypto-monnaies comme Fartcoin, Bonk, Jasmy et les prix des finances d'Ondo ont augmenté vendrediApr 12, 2025 am 10:04 AM

Ces jetons ont grimpé en flèche comme l'indice du dollar américain, communément appelé DXY, a plongé à un creux de 99 $, son niveau le plus bas depuis 2022.

Le prix Sol augmente de 7,5% alors que la désescalatiser les tensions commerciales augmente le sentiment du marchéLe prix Sol augmente de 7,5% alors que la désescalatiser les tensions commerciales augmente le sentiment du marchéApr 12, 2025 am 10:02 AM

Sol, la crypto-monnaie native du réseau Solana, a rebondi 7,5% lors de la session de marché américaine de vendredi pour se négocier à 121,33 $.

Titre: Le maire de Vancouver, Ken Sim, dit que sa poussée continue de faire devenir la ville adaptée à Bitcoin est 'une colline sur laquelle je suis prêt à mourir'Titre: Le maire de Vancouver, Ken Sim, dit que sa poussée continue de faire devenir la ville adaptée à Bitcoin est 'une colline sur laquelle je suis prêt à mourir'Apr 12, 2025 am 10:00 AM

Sim a été en quelque sorte en quelque sorte en faisant comprendre aux gens sa motivation derrière ce qui est pour beaucoup un concept complexe et mystifiant.

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

SublimeText3 Linux nouvelle version

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code