Une plongée approfondie dans les intégrations positionnelles absolues, relatives et rotatives avec des exemples de code
Comprendre les intégrations positionnelles dans les transformateurs : de l'absolu au rotatif
Une plongée approfondie dans les intégrations positionnelles absolues, relatives et rotatives avec des exemples de code
Mina Ghashami
Suivez
Vers la science des données
--
Partager
L'un des composants clés des transformateurs est l'intégration positionnelle. Vous vous demandez peut-être : pourquoi ? Parce que le mécanisme d’auto-attention dans les transformateurs est invariant par permutation ; cela signifie qu'il calcule la quantité « d'attention » que chaque jeton de l'entrée reçoit des autres jetons de la séquence, mais il ne prend pas en compte l'ordre des jetons. En fait, le mécanisme d’attention traite la séquence comme un sac de jetons. Pour cette raison, nous avons besoin d'un autre composant appelé intégration positionnelle qui prend en compte l'ordre des jetons et influence les intégrations de jetons. Mais quels sont les différents types d'intégrations positionnelles et comment sont-elles mises en œuvre ?
Dans cet article, nous examinons trois principaux types d'intégrations positionnelles et approfondissons leur mise en œuvre.
Voici la table des matières de cet article :
1. Contexte et contexte
2. Intégration positionnelle absolue
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!