Maison  >  Article  >  Périphériques technologiques  >  L'article pionnier de Transformer est choquant ? L'image n'est pas cohérente avec le code et le bug mystérieux me rend stupide

L'article pionnier de Transformer est choquant ? L'image n'est pas cohérente avec le code et le bug mystérieux me rend stupide

WBOY
WBOYavant
2023-05-11 12:46:131388parcourir

Aujourd'hui, le cercle de l'IA a été choqué par un "renversement" choquant.

Le diagramme dans "Attention Is All Your Need", le travail de base de la PNL de Google Brain et à l'origine de l'architecture Transformer, a été retiré par les internautes et fusionné avec le code .Incohérent.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Adresse papier : https://arxiv.org /abs/1706.03762

Depuis son lancement en 2017, Transformer est devenu la pierre angulaire du domaine de l'IA. Même le véritable cerveau derrière le populaire ChatGPT, c'est lui.

En 2019, Google a également déposé un brevet spécifiquement pour celui-ci.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

remonte à l'origine, et maintenant divers GPT (Generative Pre- Transformateur formé), tous proviennent de ce journal vieux de 17 ans.

Selon Google Scholar, jusqu'à présent, cet ouvrage fondateur a été cité plus de 70 000 fois.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Donc, la première pierre de ChatGPT n'est pas stable ?

En tant qu'« auteur » du document, le schéma de structure est en fait faux ?

Sebastian Raschka, fondateur de Lightning AI et chercheur en apprentissage automatique, a découvert que le diagramme du transformateur dans cet article est erroné.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

L'endroit encerclé dans l'image, LayerNorms est après l'attention et le calque entièrement connecté. Placer la normalisation des couches entre les blocs résiduels entraîne des gradients attendus importants pour les paramètres proches de la couche de sortie.

De plus, cela n'est pas cohérent avec le code.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

# 🎜 🎜#

Adresse du code : https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f147 b884748f08197c9cf1b10a4dd78e

# 🎜 🎜# Cependant, certains internautes ont souligné que Noam Shazeer avait corrigé le code quelques semaines plus tard.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Plus tard, Sebastian a dit que dans l'article Normalisation des couches dans l'architecture du transformateur , Pre-LN fonctionne mieux et peut résoudre le problème du gradient.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

C'est ce que beaucoup ou la plupart des architectures adoptent dans la pratique, mais cela peut conduire à une rupture de la représentation.

Si la normalisation des calques est placée dans la connexion résiduelle avant l'attention et les calques entièrement connectés, de meilleurs dégradés seront obtenus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Sebastian a proposé que même si la discussion sur l'utilisation du Post-LN ou du Pre-LN est toujours en cours, il existe également un nouveau document proposant de combiner les deux.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Adresse papier : https://arxiv.org/abs/2304.14802

Dans ce double Transformer résiduel, les problèmes d'effondrement de la représentation et de disparition du gradient sont résolus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Discussion chaude des internautes

En réponse à le journal Concernant les doutes, certains internautes ont souligné : n'y a-t-il pas déjà PreLN et PostLN au milieu ?

Sebastian a répondu qu'il se sentait un peu étrange aussi. Peut-être que le 2ème LN fait référence à la dernière couche de sortie plutôt qu'à chaque bloc de transformateur, mais il n'en est pas sûr non plus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Certains internautes ont déclaré : « Nous rencontrons souvent des incohérences avec le code ou les résultats. Les documents correspondants sont pour la plupart des erreurs, mais il est parfois étrange que ce document circule depuis longtemps. C'est vraiment étrange que ce genre de question n'ait jamais été soulevé auparavant. #

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Sebastian a dit que pour être honnête, le code original est conforme à l'image Oui, mais ils ont modifié la version du code en 2017 mais je n'ai pas mis à jour la photo. Donc, c'est déroutant.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Certains internautes ont dit qu'il existe déjà des articles montrant une méthode différente dans NormFormer . une architecture trop complexe, et son équipe a récemment confirmé ses résultats. Le document ResiDual ne mentionne NormFormer nulle part, ce qui est surprenant.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Dans le même temps, les internautes ont continué à apparaître dans la zone de commentaires pour confirmer : LN utilisé dans Transformers , qui est différent de la méthode utilisée dans CNN.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

# 🎜 🎜#Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupideAlors, y a-t-il vraiment une faille dans le journal, ou est-ce un propre incident ?

Attendons de voir ce qui se passera ensuite.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer