Maison >Périphériques technologiques >IA >Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

王林avant: 2023-04-09 20:31:091657parcourir

Transformer est né en 2017 et a été présenté par Google dans le document "L'attention est tout ce dont vous avez besoin". Cet article abandonne les CNN et RNN utilisés dans les tâches précédentes d'apprentissage en profondeur. Cette recherche révolutionnaire a renversé l’idée précédente d’assimiler la modélisation de séquences et le RNN, et est désormais largement utilisée en PNL. Les populaires GPT, BERT, etc. sont tous construits sur Transformer.

Transformer Depuis son introduction, les chercheurs ont proposé de nombreuses variantes. Mais toutes les descriptions de Transformer semblent présenter l'architecture sous forme verbale, d'explications graphiques, etc. Il existe très peu d’informations disponibles sur les descriptions de pseudocode de Transformer.

Comme l'exprime le passage suivant : Un chercheur très célèbre dans le domaine de l'IA a envoyé un jour un article qu'il trouvait très bien écrit à un célèbre théoricien de la complexité. Et la réponse du théoricien est : je ne trouve aucun théorème dans l'article, je ne sais pas de quoi parle l'article.

Pour les praticiens, les articles peuvent être suffisamment détaillés, mais les théoriciens exigent généralement plus de précision. Pour une raison quelconque, la communauté DL semble réticente à fournir un pseudocode pour ses modèles de réseaux neuronaux.

Actuellement, il semble que la communauté DL ait les problèmes suivants :

Les publications DL manquent de précision et de détails scientifiques. L’apprentissage profond a connu un grand succès au cours des 5 à 10 dernières années, avec des milliers d’articles publiés chaque année. De nombreux chercheurs ne décrivent que de manière informelle comment ils ont modifié les modèles précédents, avec des articles de plus de 100 pages ne contenant que quelques lignes de descriptions informelles de modèles. Au mieux, quelques diagrammes de haut niveau, pas de pseudocode, pas d'équations, aucune mention d'une interprétation précise du modèle. Personne ne fournit même de pseudocode pour le célèbre Transformer et ses variantes encodeurs/décodeurs.

Code source et pseudo code. Le code source open source est très utile, mais comparé aux milliers de lignes de code source réel, un pseudocode bien conçu fait généralement moins d'une page et reste essentiellement complet. Cela semblait être un travail difficile que personne ne voulait faire.

Expliquer le processus de formation est tout aussi important, mais parfois le document ne mentionne même pas quelles sont les entrées et les sorties du modèle et quels sont les effets secondaires potentiels. Les sections expérimentales des articles n’expliquent souvent pas ce qui est introduit dans l’algorithme et comment. Si la section Méthodes contient quelques explications, elle est souvent déconnectée de ce qui est décrit dans la section Expérimentale, probablement parce que différents auteurs ont écrit des sections différentes.

Certaines personnes peuvent se demander : le pseudocode est-il vraiment nécessaire ? À quoi sert le pseudocode ?

Les chercheurs de DeepMind pensent que fournir un pseudocode a de nombreuses utilisations Par rapport à la lecture d'un article ou au défilement de 1 000 lignes de code réel, le pseudocode condense tout le contenu important sur une seule page, ce qui facilite le développement de nouvelles variantes. À cette fin, ils ont récemment publié un article "Formal Algorithms for Transformers", qui décrit l'architecture du Transformer de manière complète et mathématiquement précise.

Introduction à l'article

Cet article explique ce qu'est Transformer, comment Transformer est formé, à quoi sert Transformer, les composants architecturaux clés de Transformer et un aperçu des modèles les plus célèbres.