Maison >Périphériques technologiques >IA >Cette méthode de formation clairsemée pour les grands modèles avec une grande précision et une faible consommation de ressources a été trouvée.

Cette méthode de formation clairsemée pour les grands modèles avec une grande précision et une faible consommation de ressources a été trouvée.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-04-13 19:01:011501parcourir

Récemment, l'article d'Alibaba Cloud Machine Learning PAI « Parameter-Efficient Sparsity for Large Language Models Fine-Tuning » sur la formation éparse de grands modèles a été accepté par l'IJCAI 2022, la plus grande conférence sur l'intelligence artificielle.
L'article propose un algorithme d'entraînement clairsemé efficace en termes de paramètres PST En analysant l'indice d'importance des poids, il est conclu qu'il présente deux caractéristiques : un rang et une structure faibles. Sur la base de cette conclusion, l'algorithme PST introduit deux ensembles de petites matrices pour calculer l'importance des poids. Par rapport au besoin initial d'une matrice aussi grande que le poids pour enregistrer et mettre à jour l'indice d'importance, la quantité de paramètres qui doivent être. mis à jour pour une formation clairsemée est considérablement réduit. Comparé aux algorithmes d'entraînement clairsemés couramment utilisés, l'algorithme PST peut atteindre une précision de modèle clairsemée similaire tout en ne mettant à jour que 1,5 % des paramètres.

Contexte

Ces dernières années, les grandes entreprises et les instituts de recherche ont proposé une variété de grands modèles. Les paramètres de ces grands modèles vont de dizaines de milliards à des milliards, et même des dizaines de milliards sont déjà apparus. modèle. Ces modèles nécessitent une grande quantité de ressources matérielles pour être formés et déployés, ce qui les rend difficiles à mettre en œuvre. Par conséquent, comment réduire les ressources nécessaires à la formation et au déploiement de grands modèles est devenu un problème urgent.
La technologie de compression de modèle peut réduire efficacement les ressources requises pour le déploiement du modèle. En supprimant certains poids, les calculs du modèle peuvent être convertis de calculs denses en calculs clairsemés, réduisant ainsi l'utilisation de la mémoire et accélérant les calculs. Dans le même temps, par rapport à d'autres méthodes de compression de modèle (élagage/quantification structuré), la parcimonie peut atteindre un taux de compression plus élevé tout en garantissant la précision du modèle, et est plus adaptée aux grands modèles avec un grand nombre de paramètres.

Challenge

Les méthodes d'entraînement clairsemées existantes peuvent être divisées en deux catégories, l'une est l'algorithme clairsemé sans données basé sur le poids ; l'autre est l'algorithme clairsemé basé sur les données. L'algorithme clairsemé basé sur le poids est illustré dans la figure ci-dessous, comme l'élagage de magnitude [1], qui évalue l'importance du poids en calculant la norme L1 du poids, et génère le résultat clairsemé correspondant sur cette base. L'algorithme clairsemé basé sur le poids est efficace dans le calcul et ne nécessite pas la participation de données d'entraînement, mais l'indice d'importance calculé n'est pas suffisamment précis, affectant ainsi la précision du modèle clairsemé final.