Maison  >  Article  >  Périphériques technologiques  >  S'adapter aux grands modèles de bas rang

S'adapter aux grands modèles de bas rang

WBOY
WBOYavant
2024-01-23 21:03:08604parcourir

Sadapter aux grands modèles de bas rang

L'adaptation de bas rang de grands modèles est une méthode de réduction de la complexité en approchant la structure de haute dimension de grands modèles avec des structures de basse dimension. L'objectif est de créer une représentation de modèle plus petite et plus gérable tout en conservant de bonnes performances. Dans de nombreuses tâches, la structure de grande dimension des grands modèles peut contenir des informations redondantes ou non pertinentes. En identifiant et en supprimant ces redondances, un modèle plus efficace peut être créé tout en conservant les performances d'origine et peut utiliser moins de ressources pour la formation et le déploiement.

L'adaptation de bas rang est une méthode qui peut accélérer la formation de grands modèles tout en réduisant également la consommation de mémoire. Son principe est de geler les poids du modèle pré-entraîné et d'introduire la matrice de décomposition des rangs entraînables dans chaque couche de l'architecture Transformer, réduisant ainsi considérablement le nombre de paramètres pouvant être entraînés pour les tâches en aval. Cette méthode fonctionne en décomposant la matrice d'origine en produit de deux matrices de rangs différents. En utilisant simplement des matrices de bas rang pour le calcul, vous pouvez réduire le nombre de paramètres du modèle, augmenter la vitesse de formation et obtenir de bonnes performances en termes de qualité du modèle sans augmenter la latence d'inférence.

Exemple d'adaptation de bas rang

En prenant le modèle GPT-3 comme exemple, l'adaptation de bas rang de grands modèles (LoRA) est une méthode permettant d'entraîner indirectement certaines couches denses dans un réseau neuronal en optimisant la matrice de décomposition de rang dans le couche dense. L'avantage de LoRA est que seuls certains paramètres doivent être affinés au lieu d'entraîner l'ensemble du modèle avec tous les paramètres, améliorant ainsi l'efficacité opérationnelle lors du déploiement. Dans le modèle GPT-3, LoRA n'a besoin que d'optimiser une matrice de décomposition de très bas rang pour obtenir des performances comparables à un réglage fin complet des paramètres. Cette méthode est non seulement très efficace en termes de stockage et de calcul, mais peut également réduire efficacement les problèmes de surajustement et améliorer la capacité de généralisation du modèle. Grâce à LoRA, les grands modèles peuvent être appliqués de manière plus flexible à divers scénarios, offrant ainsi plus de possibilités au développement de l'apprentissage profond.

De plus, l'idée d'adaptation de bas rang est simple. Pour ce faire, il ajoute un contournement à côté du PLM (modèle de langage pré-entraîné) d'origine, qui effectue une réduction de dimensionnalité puis des opérations de dimensionnalité pour simuler les dimensions dites intrinsèques. Pendant le processus de formation, les paramètres du PLM sont fixés et seules la matrice de réduction de dimensionnalité A et la matrice d'amélioration de dimensionnalité B sont entraînées. Les dimensions d'entrée et de sortie du modèle restent inchangées, mais les paramètres de BA et PLM se superposent à la sortie. La matrice de réduction de dimensionnalité A est initialisée à l'aide d'une distribution gaussienne aléatoire, tandis que la matrice d'amélioration de dimensionnalité B est initialisée à l'aide d'une matrice 0, ce qui garantit que la matrice de contournement est toujours une matrice 0 au début de l'entraînement.

Cette idée présente certaines similitudes avec la connexion résiduelle, qui simule le processus de réglage complet en utilisant des mises à jour de contournement. En fait, le réglage fin complet peut être considéré comme un cas particulier de LoRA, c’est-à-dire lorsque r est égal à k. Cela signifie qu'en appliquant LoRA à toutes les matrices de poids et en entraînant tous les termes de biais, tout en définissant le rang r de LoRA au rang k de la matrice de poids pré-entraînée, nous pouvons restaurer grossièrement la puissance expressive d'un réglage fin complet. En d'autres termes, à mesure que le nombre de paramètres pouvant être entraînés augmente, la formation de LoRA tend vers la formation du modèle d'origine, tandis que la méthode basée sur l'adaptateur tend vers un MLP, et la méthode basée sur les préfixes tend vers un modèle qui ne peut pas gérer de longs paramètres. séquences d’entrée. Par conséquent, LoRA offre un moyen flexible d’équilibrer le nombre de paramètres pouvant être entraînés et la puissance expressive du modèle.

Quelle est la différence entre l'adaptation de bas rang et la compression du réseau neuronal ?

L'adaptation de bas rang et la compression du réseau neuronal présentent certaines différences dans les objectifs et les méthodes.

L'objectif de la compression des réseaux neuronaux est de réduire les paramètres et l'espace de stockage, de réduire les coûts de calcul et les besoins de stockage, tout en maintenant les performances. Les méthodes incluent la modification de la structure du réseau, la quantification et l'approximation, etc.

La compression des réseaux neuronaux peut être divisée en trois catégories : méthodes d'approximation, de quantification et de recadrage.

Les méthodes approximatives utilisent la décomposition matricielle ou tensorielle pour reconstruire un petit nombre de paramètres et réduire la surcharge de stockage réseau.

2) L'idée principale de la méthode de quantification est de mapper les valeurs possibles des paramètres de réseau du domaine des nombres réels à un ensemble de nombres finis, ou de représenter les paramètres de réseau avec moins de bits pour réduire la surcharge de stockage du réseau. .

3) La méthode de découpage modifiera directement la structure du réseau, qui peut être divisée en découpage hiérarchique, découpage au niveau des neurones et découpage au niveau de la connexion neuronale selon la granularité.

L'adaptation de bas rang fait référence à la réduction de la complexité du modèle en réduisant la dimensionnalité des paramètres du modèle, et est généralement mise en œuvre à l'aide de techniques telles que la décomposition matricielle. Cette approche est souvent utilisée pour réduire les coûts de calcul et les exigences de stockage du modèle tout en conservant les capacités prédictives du modèle.

En général, la compression des réseaux de neurones est un concept plus large qui couvre plusieurs méthodes pour réduire les paramètres et l'espace de stockage des réseaux de neurones. L'adaptation de bas rang est une technique spécifique conçue pour réduire la complexité des grands modèles en les rapprochant de structures de faible dimension.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer