Maison >Périphériques technologiques >IA >Comprendre l'évolution de Chatgpt: partie 2 & # 8211; GPT-2 et GPT-3

Comprendre l'évolution de Chatgpt: partie 2 & # 8211; GPT-2 et GPT-3

PHPz
PHPzoriginal
2025-02-25 21:02:11703parcourir

Cet article explore l'évolution des modèles GPT d'OpenAI, en se concentrant sur GPT-2 et GPT-3. Ces modèles représentent un changement significatif dans l'approche du modèle de modèle de grande langue (LLM), s'éloignant de la paradigme traditionnelle "pré-formation plus amende" vers une approche "pré-formation uniquement".

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

Ce changement a été motivé par les observations des capacités de GPT-1 à tis-tirs - sa capacité à effectuer des tâches pour lesquelles il n'avait pas été spécifiquement formé. Pour mieux comprendre cela, plongeons dans les concepts clés:

Partie 1: Le paradigme Shift et ses catalyseurs

Les limites du réglage fin, en particulier pour la vaste gamme de tâches NLP invisibles, ont motivé le passage à l'apprentissage agnostique des tâches. Les grands modèles de réglage fin sur les petits ensembles de données risquent sur le sur-ajustement et la mauvaise généralisation. La capacité humaine à apprendre les tâches linguistiques sans ensembles de données supervisés massifs soutient ce changement.

Trois éléments clés ont facilité ce changement de paradigme:

  • Apprentissage agnostique des tâches (Meta-Learning): Cette approche équipe le modèle d'un large ensemble de compétences pendant la formation, ce qui lui permet de s'adapter rapidement à de nouvelles tâches sans autre réglage. Le méta-apprentissage du modèle (MAML) illustre ce concept.

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

  • L'hypothèse de l'échelle: Cette hypothèse postule que des modèles plus importants formés sur des ensembles de données plus importants présentent des capacités émergentes - des capacités qui apparaissent de manière inattendue à mesure que la taille du modèle et l'augmentation des données. GPT-2 et GPT-3 ont servi d'expériences pour tester cela.

  • Apprentissage dans le contexte: Cette technique consiste à fournir au modèle un enseignement du langage naturel et quelques exemples (démonstrations) au moment de l'inférence, ce qui lui permet d'apprendre la tâche à partir de ces exemples sans mises à jour de gradient. L'apprentissage zéro-shot, un coup et à quelques tirs représente différents niveaux de fourniture d'exemples.

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

Partie 2: GPT-2 - Un tremplin

GPT-2 construit sur l'architecture de GPT-1 avec plusieurs améliorations: placement de tempête modifié, mise à l'échelle de poids pour les couches résiduelles, vocabulaire élargi (50257), taille de contexte accrue (1024 jetons) et plus grande taille de lot (512). Quatre modèles ont été formés avec des dénombrements de paramètres allant de 117 m à 1,5 milliard. L'ensemble de données de formation, WebText, comprenait environ 45 millions de liens. Alors que le GPT-2 a montré des résultats prometteurs, en particulier dans la modélisation du langage, il a pris du retard par rapport aux modèles de pointe sur des tâches comme la compréhension et la traduction de la lecture.

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

PARTIE 3: GPT-3 - un bond en avant

GPT-3 a conservé une architecture similaire à GPT-2, différant principalement dans son utilisation de modèles d'attention denses et clairsemés alternés. Huit modèles ont été entraînés, allant de 125 m à 175b. Les données de formation étaient nettement plus grandes et plus diverses, avec une conservation et une pondération minutieuses des ensembles de données en fonction de la qualité.

Les résultats clés de l'évaluation de GPT-3 démontrent l'efficacité de l'hypothèse de l'échelle et de l'apprentissage dans le contexte. Les performances sont mises à l'échelle avec une augmentation des calculs, et des modèles plus importants ont montré des performances supérieures à travers des paramètres d'apprentissage zéro-shot, à un coup et à quelques coups.

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

Partie 4: Conclusion

GPT-2 et GPT-3 représentent des progrès importants dans le développement de LLM, ouvrant la voie à de futures recherches sur les capacités émergentes, les paradigmes de formation, le nettoyage des données et les considérations éthiques. Leur succès met en évidence le potentiel de l'apprentissage agnostique des tâches et la puissance de l'échelle de la taille du modèle et des données d'entraînement. Cette recherche continue d'influencer le développement de modèles suivants, tels que GPT-3.5 et InstructGpt.

Pour les articles connexes dans cette série, voir:

  • Partie 1: Comprendre l'évolution de Chatgpt: Partie 1 - Un regard approfondi sur GPT-1 et ce qui l'a inspiré.
  • Partie 3: Insistance du codex et instructgpt

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn