recherche
MaisonPériphériques technologiquesIAQuelle est la loi sur l'échelle de Chinchilla?

Introduction

Les modèles de grands langues (LLM) ont contribué à la progression du traitement du langage naturel (PNL), mais ils ont également soulevé des questions importantes sur l'efficacité informatique. Ces modèles sont devenus trop grands, donc le coût de la formation et de l'inférence n'est plus dans des limites raisonnables.

Pour y remédier, la loi sur l'échelle de Chinchilla, introduite par Hoffmann et al. En 2022, fournit un cadre révolutionnaire pour optimiser la formation des LLM. La loi sur la mise à l'échelle de Chinchilla offre un guide essentiel pour mettre à l'échelle efficace les LLM sans compromettre les performances en établissant des relations entre la taille du modèle, les données de formation et les ressources de calcul. Nous en discuterons en détail dans cet article.

Quelle est la loi sur l'échelle de Chinchilla?

Aperçu

  • La loi d'échelle de Chinchilla optimise la formation LLM en équilibrant la taille du modèle et le volume de données pour une efficacité améliorée.
  • De nouvelles informations sur l'échelle suggèrent que des modèles de langage plus petits comme Chinchilla peuvent surpasser les plus grands lorsqu'ils sont formés sur plus de données.
  • L'approche de Chinchilla remet en question la mise à l'échelle LLM traditionnelle en hiérarchisant la quantité de données sur la taille du modèle pour l'efficacité du calcul.
  • La loi sur l'échelle de Chinchilla propose une nouvelle feuille de route pour la PNL, guidant le développement de modèles hautement performants et économes en ressources.
  • La loi sur l'échelle de Chinchilla maximise les performances du modèle linguistique avec un minimum de coûts de calcul en doublant la taille du modèle et les données de formation.

Table des matières

  • Qu'est-ce que la loi sur l'échelle de Chinchilla?
  • Un changement de mise au point: de la taille du modèle aux données
  • Aperçu de la loi sur l'échelle de Chinchilla
  • Résultats clés de la loi sur l'échelle de Chinchilla
    • Formation en calcul optimal
    • Preuves empiriques de plus de 400 modèles
    • Estimations révisées et amélioration continue
  • Avantages de l'approche chinchilla
    • Amélioration des performances
    • Réduire les coûts de calcul
  • Implications pour la recherche future et le développement de modèles
  • Défis et considérations
  • Questions fréquemment posées

Qu'est-ce que la loi sur l'échelle de Chinchilla?

L'article «Training Compute-Optimal Big Language Models», publié en 2022, se concentre sur l'identification de la relation entre trois facteurs clés: la taille du modèle, le nombre de jetons et le budget de calcul. Les auteurs ont constaté que les modèles de grande langue existants (LLM) comme GPT-3 (paramètres 175b), Gopher (280b) et Megatron (530b) sont significativement sous-entraînés. Bien que ces modèles aient augmenté en taille, la quantité de données de formation est restée largement constante, conduisant à des performances sous-optimales. Les auteurs proposent que la taille du modèle et le nombre de jetons de formation doivent être mises à l'échelle également pour une formation optimale en calcul. Pour le prouver, ils ont formé environ 400 modèles, allant de 70 millions à plus de 16 milliards de paramètres, en utilisant entre 5 et 500 milliards de jetons.

Sur la base de ces résultats, les auteurs ont formé un nouveau modèle appelé Chinchilla, qui utilise le même budget de calcul que Gopher (280B) mais avec seulement 70B paramètres et quatre fois plus de données d'entraînement. Chinchilla a surpassé plusieurs LLM bien connus, dont Gopher (280B), GPT-3 (175b), Jurassic-1 (178b) et Megatron (530b). Ce résultat contredit les lois de mise à l'échelle proposées par OpenAI dans les «lois de mise à l'échelle des LLM», ce qui suggère que les modèles plus grands se comporteraient toujours mieux. Les lois sur l'échelle de Chinchilla démontrent que les modèles plus petits lorsqu'ils sont formés sur plus de données peuvent atteindre des performances supérieures. Cette approche facilite également les modèles plus petits à affiner et réduit la latence d'inférence.

Quelle est la loi sur l'échelle de Chinchilla?

Le graphique montre que, bien qu'il soit plus petit, Chinchilla (70b) suit un rapport calcul / paramètre différent et surpasse les modèles plus grands comme Gopher et GPT-3.

Les autres approches (1, 2 et 3) explorent différentes façons d'optimiser les performances du modèle en fonction de l'allocation de calcul.

Quelle est la loi sur l'échelle de Chinchilla?

À partir de ce chiffre, nous pouvons voir l'avantage de Chinchilla, même si Chinchilla est de plus petite taille (paramètres 70b), il a été formé sur un ensemble de données beaucoup plus grand (1,4 billion de jetons), qui suit les plus grands le principe est formé dans les modèles de Chinchilla. Formé sur relativement moins de jetons, ce qui suggère que ces modèles peuvent ne pas avoir complètement optimisé leur potentiel de calcul.

Un changement de mise au point: de la taille du modèle aux données

Historiquement, l'accent mis sur l'amélioration des performances de LLM a été sur la taille de la taille du modèle, comme le montre des modèles comme GPT-3 et Gopher. Cela a été motivé par la recherche de Kaplan et al. (2020), qui a proposé une relation de loi de puissance entre la taille du modèle et les performances. Cependant, à mesure que les modèles ont augmenté, la quantité de données de formation n'a pas évolué en conséquence, ce qui a entraîné un potentiel de calcul sous-utilisé. Les lois sur l'échelle de Chinchilla remettent en question cela en montrant qu'une allocation plus équilibrée des ressources, en particulier en termes de données et de taille du modèle, peut conduire à des modèles optimaux de calcul qui fonctionnent mieux sans atteindre leur perte possible la plus faible.

Aperçu de la loi sur l'échelle de Chinchilla

Le compromis entre la taille du modèle, les jetons d'entraînement et le coût de calcul est au cœur de la loi sur l'échelle de Chinchilla. La loi établit un équilibre optimal en calcul entre ces trois paramètres:

  • Taille du modèle (n) : le nombre de paramètres dans le modèle.
  • Tokens de formation (D) : le nombre total de jetons utilisés pendant la formation.
  • Coût de calcul (C) : les ressources totales de calcul allouées à la formation, généralement mesurées en flops (opérations de points flottants par seconde).

La loi sur l'échelle de Chinchilla suggère que pour des performances optimales, la taille du modèle et la quantité de données d'entraînement devraient évoluer à des taux égaux. Plus précisément, le nombre de jetons de formation devrait également doubler pour chaque doublement de la taille du modèle. Cette approche contraste les méthodes antérieures, qui mettaient l'accent sur l'augmentation de la taille du modèle sans augmenter suffisamment les données de formation.

Cette relation est exprimée mathématiquement comme:

Quelle est la loi sur l'échelle de Chinchilla?

Où:

  • L est la perte finale du modèle.
  • L_0 est la perte irréductible, représentant les meilleures performances possibles.
  • A et B sont des constantes qui capturent la sous-performance du modèle par rapport à un processus génératif idéal.
  • α et β sont des exposants qui décrivent comment la perte évolue par rapport à la taille du modèle et à la taille des données, respectivement.

Résultats clés de la loi sur l'échelle de Chinchilla

Voici les principales conclusions de la loi sur l'échelle de Chinchilla:

Formation en calcul optimal

La loi sur l'échelle de Chinchilla met en évidence un équilibre optimal entre la taille du modèle et la quantité de données d'entraînement. Plus précisément, l'étude a révélé qu'un rapport approximatif de 20 jetons de formation par paramètre de modèle est idéal pour atteindre les meilleures performances avec un budget de calcul donné. Par exemple, le modèle de chinchilla, avec 70 milliards de paramètres, a été formé sur 1,4 billion de jetons, dont plus de Gopher mais avec beaucoup moins de paramètres. Cet équilibre a abouti à un modèle surpassant considérablement les modèles plus grands sur plusieurs repères.

Preuves empiriques de plus de 400 modèles

Pour dériver les lois sur l'échelle de Chinchilla, Hoffmann et al. formé plus de 400 modèles de transformateurs, allant de 70 millions à 16 milliards de paramètres, sur des ensembles de données allant jusqu'à 500 milliards de jetons. Les preuves empiriques ont fortement soutenu l'hypothèse selon laquelle les modèles formés avec plus de données (dans un budget de calcul fixe) fonctionnent mieux que la simple augmentation de la taille du modèle seule.

Estimations révisées et amélioration continue

Les recherches ultérieures ont cherché à affiner les résultats initiaux de Hoffmann et al., Identifiant les ajustements possibles dans les estimations des paramètres. Certaines études ont suggéré des incohérences mineures dans les résultats originaux et ont proposé des estimations révisées pour mieux adapter les données observées. Ces ajustements indiquent que des recherches supplémentaires sont nécessaires pour comprendre pleinement la dynamique de la mise à l'échelle du modèle, mais les idées principales de la loi sur l'échelle de Chinchilla restent une précieuse directive.

Avantages de l'approche chinchilla

Voici les avantages de l'approche Chinchilla:

Amélioration des performances

La mise à l'échelle égale de Chinchilla de la taille du modèle et des données d'entraînement a donné des résultats remarquables. Bien qu'il soit plus petit que de nombreux autres grands modèles, Chinchilla a surpassé le GPT-3, Gopher et même le modèle NLG de mégatron massif (530 milliards de paramètres) sur divers repères. Par exemple, sur la référence massive de compréhension du langage multitâche (MMLU), Chinchilla a atteint une précision moyenne de 67,5%, une amélioration significative par rapport à 60% de Gopher.

Réduire les coûts de calcul

L'approche de Chinchilla optimise les performances et réduit les coûts de calcul et d'énergie pour la formation et l'inférence. Des modèles de formation comme GPT-3 et Gopher nécessitent d'énormes ressources informatiques, ce qui leur utilise dans des applications réelles prohibitivement coûteuses. En revanche, la taille du modèle plus petite de Chinchilla et les données d'entraînement plus étendues entraînent des exigences de calcul plus faibles pour le réglage fin et l'inférence, ce qui le rend plus accessible pour les applications en aval.

Implications pour la recherche future et le développement de modèles

Les lois sur l'échelle de Chinchilla offrent des informations précieuses pour l'avenir du développement de LLM. Les principales implications comprennent:

  • Guider la conception du modèle: comprendre comment équilibrer la taille du modèle et les données de formation permet aux chercheurs et aux développeurs de prendre des décisions plus éclairées lors de la conception de nouveaux modèles. En adhérant aux principes décrits dans la loi sur l'échelle de Chinchilla, les développeurs peuvent s'assurer que leurs modèles sont à la fois économes et performants.
  • Guider la conception du modèle : connaissances sur l'optimisation du volume et les données de formation informent donc la recherche et la conception des modèles. Dans cette échelle de lignes directrices, le développement de leurs idées fonctionnera dans des définitions générales de grande efficacité sans consommation excessive de ressources informatiques.
  • Optimisation des performances : la loi d'échelle de Chinchilla fournit une feuille de route pour optimiser les LLM. En se concentrant sur une échelle égale, les développeurs peuvent éviter les pièges des grands modèles sous-formation et s'assurer que les modèles sont optimisés pour les tâches d'entraînement et d'inférence.
  • Exploration au-delà de Chinchilla : Alors que la recherche se poursuit, de nouvelles stratégies émergent pour étendre les idées de la loi sur l'échelle de Chinchilla. Par exemple, certains chercheurs étudient des moyens d'atteindre des niveaux de performance similaires avec moins de ressources de calcul ou pour améliorer davantage les performances du modèle dans des environnements liés aux données. Ces explorations sont susceptibles de se traduire par des pipelines d'entraînement encore plus efficaces.

Défis et considérations

Alors que la loi sur l'échelle de Chinchilla marque un pas en avant significatif dans la compréhension de la mise à l'échelle LLM, il soulève également de nouvelles questions et défis:

  • Collecte de données: Comme ce fut le cas pour Chinchilla, l'entraînement d'un modèle avec 1,4 billion de jetons implique la disponibilité de nombreux ensembles de données de haute qualité. Cependant, une telle échelle de collecte et de traitement des données soulève des problèmes organisationnels pour les chercheurs et les développeurs, ainsi que des problèmes éthiques, tels que la confidentialité et les biais.
  • Biais et toxicité: Cependant, la réduction proportionnelle du biais et de la toxicité régulières d'un modèle formé à l'aide de la loi d'échelle de Chinchilla est plus facile et plus efficace que tous ces problèmes d'inefficacité. Au fur et à mesure que les LLM se développent en puissance et à la portée, garantir l'équité et l'atténuation des résultats nocifs seront des domaines de mise au point cruciaux pour les recherches futures.

Conclusion

La loi sur l'échelle de Chinchilla représente une progression centrale dans notre compréhension de l'optimisation de la formation de modèles de langue importants. En établissant des relations claires entre la taille du modèle, les données de formation et le coût de calcul, la loi fournit un cadre optimal pour calculer des LLM à l'échelle efficace. Le succès du modèle Chinchilla démontre les avantages pratiques de cette approche, tant en termes de performance et d'efficacité des ressources.

Alors que la recherche dans ce domaine se poursuit, les principes de la loi sur l'échelle de Chinchilla façonneront probablement l'avenir du développement de LLM, guidant la conception de modèles qui repoussent les limites de ce qui est possible dans le traitement du langage naturel tout en maintenant la durabilité et l'accessibilité.

De plus, si vous recherchez un cours d'IA génératif en ligne, explorez: le programme Genai Pinnacle!

Questions fréquemment posées

Q1. Quelle est la loi sur l'échelle de Chinchilla?

Ans. La loi sur l'échelle de Chinchilla est un cadre empirique qui décrit la relation optimale entre la taille d'un modèle de langue (nombre de paramètres), la quantité de données de formation (jetons) et les ressources de calcul requises pour la formation. Il vise à minimiser la formation de la formation tout en maximisant les performances du modèle.

Q2. Quels sont les paramètres clés de la loi sur l'échelle de Chinchilla?

Ans. Les paramètres clés comprennent:
1. N: Nombre de paramètres dans le modèle.
2. D: Nombre de jetons de formation.
3. C: Coût de calcul total dans les flops.
4. L: Perte moyenne obtenue par le modèle sur un ensemble de données de test.
5. A et B: Constantes reflétant la sous-performance par rapport à un processus génératif idéal.
6. Α et β: Exposants décrivant comment la perte évolue concernant le modèle et la taille des données, respectivement.

Q3. Comment le guide de la loi sur la mise à l'échelle de Chinchilla

Ans. La loi suggère que la taille du modèle et les jetons de formation devraient évoluer à des taux égaux pour des performances optimales. Plus précisément, pour chaque doublement de la taille du modèle, le nombre de jetons d'entraînement doit également doubler, visant généralement un rapport d'environ 20 jetons par paramètre.

Q4. Quelles sont les critiques ou les limites de la loi sur l'échelle de Chinchilla?

Ans. Des études récentes ont indiqué des problèmes potentiels avec les estimations initiales de Hoffmann et al., Y compris les incohérences dans les données rapportées et les intervalles de confiance trop serrés. Certains chercheurs soutiennent que la loi d'échelle peut être trop simpliste et ne tient pas compte de diverses considérations pratiques dans la formation des modèles.

Q5. Comment la loi sur l'échelle de Chinchilla a-t-elle influencé le développement du modèle de langue récent?

Ans. Les résultats de la loi sur l'échelle de Chinchilla ont informé plusieurs processus de conception et de formation de plusieurs modèles, y compris la suite Gemini de Google. Il a également provoqué des discussions sur les stratégies «au-delà de la chinchilla», où les chercheurs explorent des modèles de formation plus grands que optimaux selon les lois sur l'échelle originales.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Une invite peut contourner toutes les garanties de LLM majeuresUne invite peut contourner toutes les garanties de LLM majeuresApr 25, 2025 am 11:16 AM

Les recherches révolutionnaires de Hiddenlayer expose une vulnérabilité critique dans les principaux modèles de grande langue (LLM). Leurs résultats révèlent une technique de contournement universelle, surnommée "Policy Puppetry", capable de contourner presque tous les principaux LLM

5 erreurs que la plupart des entreprises feront cette année avec la durabilité5 erreurs que la plupart des entreprises feront cette année avec la durabilitéApr 25, 2025 am 11:15 AM

La pression pour la responsabilité environnementale et la réduction des déchets modifie fondamentalement le fonctionnement des entreprises. Cette transformation affecte le développement de produits, les processus de fabrication, les relations clients, la sélection des partenaires et l'adoption de nouveaux

H20 Chip Ban Jolts China Ai Cirmères, mais ils ont longtemps contrecarré pour l'impactH20 Chip Ban Jolts China Ai Cirmères, mais ils ont longtemps contrecarré pour l'impactApr 25, 2025 am 11:12 AM

Les récentes restrictions sur le matériel avancé d'IA mettent en évidence l'escalade de la concurrence géopolitique pour la domination de l'IA, exposant la dépendance de la Chine à l'égard de la technologie des semi-conducteurs étrangers. En 2024, la Chine a importé un énorme semi-conducteur de 385 milliards de dollars

Si Openai achète Chrome, AI peut gouverner les guerres du navigateurSi Openai achète Chrome, AI peut gouverner les guerres du navigateurApr 25, 2025 am 11:11 AM

La cession potentielle forcée de Chrome de Google a déclenché un débat intense au sein de l'industrie technologique. La perspective d'Openai acquérir le principal navigateur, offrant une part de marché mondiale de 65%, soulève des questions importantes sur l'avenir du th

Comment l'IA peut résoudre les douleurs croissantes des médias de vente au détailComment l'IA peut résoudre les douleurs croissantes des médias de vente au détailApr 25, 2025 am 11:10 AM

La croissance des médias de la vente au détail ralentit, malgré le dépassement global de la croissance publicitaire. Cette phase de maturation présente des défis, notamment la fragmentation des écosystèmes, la hausse des coûts, les problèmes de mesure et les complexités d'intégration. Cependant, l'intelle artificielle

'L'IA est nous, et c'est plus que nous''L'IA est nous, et c'est plus que nous'Apr 25, 2025 am 11:09 AM

Une vieille radio crépite avec statique au milieu d'une collection d'écrans vacillants et inertes. Ce tas précaire d'électronique, facilement déstabilisé, constitue le cœur de "The E-Waste Land", l'une des six installations de l'exposition immersive, et

Google Cloud devient plus sérieux au sujet de l'infrastructure au prochain 2025Google Cloud devient plus sérieux au sujet de l'infrastructure au prochain 2025Apr 25, 2025 am 11:08 AM

Google Cloud's Next 2025: Un accent sur l'infrastructure, la connectivité et l'IA La prochaine conférence de Google Cloud en 2025 a présenté de nombreuses progrès, trop pour détaillants ici. Pour des analyses approfondies des annonces spécifiques, reportez-vous aux articles de mon

Talking Baby Ai Meme, le pipeline de films AI de 5,5 millions de dollars d'Arcana, a révélé des bailleurs de fonds secrètes d'IrTalking Baby Ai Meme, le pipeline de films AI de 5,5 millions de dollars d'Arcana, a révélé des bailleurs de fonds secrètes d'IrApr 25, 2025 am 11:07 AM

Cette semaine dans AI et XR: une vague de créativité alimentée par l'IA balaie les médias et le divertissement, de la génération de musique à la production de films. Plongeons dans les gros titres. Impact croissant du contenu généré par l'AI: Shelly Palme, consultante en technologie, Shelly Palme

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel