S-LoRA : Il est possible d'exécuter des milliers de grands modèles sur un seul GPU-IA-php.cn

Maison

Périphériques technologiques

S-LoRA : Il est possible d'exécuter des milliers de grands modèles sur un seul GPU

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 15, 2023 pm 02:14 PM

数据训练

De manière générale, le déploiement de grands modèles de langage adopte généralement la méthode du « pré-entraînement-réglage fin ». Cependant, lorsque l’on peaufine le modèle de base pour plusieurs tâches (telles que les assistants personnalisés), le coût de la formation et du service devient très élevé. L'adaptation LowRank (LoRA) est une méthode efficace de réglage fin des paramètres, qui est généralement utilisée pour adapter le modèle de base à plusieurs tâches, générant ainsi un grand nombre d'adaptateurs LoRA dérivés

Réécrit : L'inférence par lots offre de nombreuses opportunités pendant le service, et il a été démontré que ce modèle permet d'obtenir des performances comparables à un réglage fin complet en ajustant avec précision les poids des adaptateurs. Bien que cette approche permette une inférence à faible latence sur un seul adaptateur et une exécution en série sur plusieurs adaptateurs, elle réduit considérablement le débit global du service et augmente la latence globale lors du service simultané de plusieurs adaptateurs. Par conséquent, on ne sait toujours pas comment résoudre le problème de service à grande échelle de ces variantes affinées.

Récemment, des chercheurs de l'UC Berkeley, Stanford et d'autres universités ont proposé une nouvelle méthode de réglage fin appelée S-LoRA dans un article

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Adresse papier : https://arxiv.org/pdf/2311.03285.pdf
Adresse du projet : https://github.com/S-LoRA/S-LoRA

S-LoRA est un système conçu pour le service évolutif de nombreux adaptateurs LoRA. Il stocke tous les adaptateurs dans la mémoire principale et récupère l'adaptateur utilisé par la requête en cours d'exécution dans la mémoire GPU.

S-LoRA propose la technologie "Unified Paging", qui utilise un pool de mémoire unifié pour gérer différents niveaux de poids d'adaptateur dynamiques et des tenseurs de cache KV de différentes longueurs de séquence. De plus, S-LoRA utilise une nouvelle stratégie de parallélisme tensoriel et des noyaux CUDA personnalisés hautement optimisés pour permettre le traitement par lots hétérogène des calculs LoRA.

Ces fonctionnalités permettent à S-LoRA de servir des milliers d'adaptateurs LoRA sur un ou plusieurs GPU à une fraction du coût (desservant 2000 adaptateurs simultanément) et de minimiser les coûts de calcul LoRA supplémentaires. En comparaison, vLLM-packed doit conserver plusieurs copies de poids et ne peut servir que moins de 5 adaptateurs en raison des limitations de mémoire GPU

Par rapport aux technologies de pointe telles que HuggingFace PEFT et vLLM (prend uniquement en charge le service LoRA ) Par rapport à la bibliothèque, le débit de S-LoRA peut être augmenté jusqu'à 4 fois et le nombre d'adaptateurs servis peut être augmenté de plusieurs ordres de grandeur. Par conséquent, S-LoRA est en mesure de fournir des services évolutifs pour de nombreux modèles de réglage précis spécifiques à des tâches et offre le potentiel de personnalisation à grande échelle des services de réglage fin.

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

S-LoRA contient trois principales parties innovantes. La section 4 présente la stratégie de traitement par lots utilisée pour décomposer les calculs entre le modèle de base et l'adaptateur LoRA. En outre, les chercheurs ont également résolu les problèmes de planification de la demande, notamment des aspects tels que le regroupement d'adaptateurs et le contrôle d'admission. La possibilité de traiter par lots sur des adaptateurs simultanés pose de nouveaux défis en matière de gestion de la mémoire. Dans la cinquième partie, les chercheurs font la promotion de PagedAttention to Unfied Paging pour prendre en charge le chargement dynamique des adaptateurs LoRA. Cette approche utilise un pool de mémoire unifié pour stocker le cache KV et les poids de l'adaptateur de manière paginée, ce qui peut réduire la fragmentation et équilibrer les tailles changeantes dynamiquement du cache KV et des poids de l'adaptateur. Enfin, la partie 6 présente une nouvelle stratégie tensorielle parallèle qui peut découpler efficacement le modèle de base et l'adaptateur LoRA

Voici les points forts :

Traitement par lots

Pour un seul adaptateur, Hu et al. (2021) ont proposé une méthode recommandée, qui consiste à fusionner les poids de l'adaptateur avec les poids du modèle de base, ce qui donne lieu à un nouveau modèle (voir l'équation 1). L'avantage est qu'il n'y a pas de surcharge d'adaptateur supplémentaire pendant l'inférence puisque le nouveau modèle a le même nombre de paramètres que le modèle de base. En fait, il s'agissait également d'une caractéristique notable du travail LoRA original

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Cet article souligne que la fusion des adaptateurs LoRA dans le modèle de base est inefficace pour les configurations de services multi-LoRA à haut débit. Au lieu de cela, les chercheurs proposent de calculer LoRA en temps réel pour calculer xAB (comme le montre l’équation 2).

Dans S-LoRA, le calcul du modèle de base est effectué par lots, puis un xAB supplémentaire est effectué pour tous les adaptateurs individuellement à l'aide d'un noyau CUDA personnalisé. Ce processus est illustré à la figure 1. Au lieu d'utiliser le remplissage et les noyaux GEMM par lots de la bibliothèque BLAS pour calculer LoRA, nous avons implémenté un noyau CUDA personnalisé pour obtenir un calcul plus efficace sans remplissage. Les détails d'implémentation se trouvent dans la sous-section 5.3.

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Le nombre d'adaptateurs LoRA pourrait être important s'ils étaient stockés dans la mémoire principale, mais actuellement, le nombre d'adaptateurs LoRA requis pour exécuter un lot est contrôlable car la taille du lot est limitée par la mémoire GPU. Pour en profiter, nous stockons tous les adaptateurs LoRA dans la mémoire principale et, lors de l'inférence pour le lot en cours d'exécution, récupérons uniquement les adaptateurs LoRA requis pour ce lot dans la RAM GPU. Dans ce cas, le nombre maximum d'adaptateurs réparables est limité par la taille de la mémoire principale. La figure 2 illustre ce processus. La section 5 aborde également les techniques de gestion efficace de la mémoire

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Gestion de la mémoire

Par rapport à la gestion d'un modèle de base unique, la gestion simultanée de plusieurs cartes adaptateurs LoRA apportera de nouveaux défis en matière de gestion de la mémoire. Pour prendre en charge plusieurs adaptateurs, S-LoRA les stocke dans la mémoire principale et charge dynamiquement les poids d'adaptateur requis pour le lot en cours d'exécution dans la RAM GPU.

Dans ce processus, il y a deux défis évidents. Le premier est le problème de fragmentation de la mémoire, provoqué par le chargement et le déchargement dynamiques de poids d'adaptateur de différentes tailles. Le second est la surcharge de latence provoquée par le chargement et le déchargement de l’adaptateur. Afin de résoudre efficacement ces problèmes, les chercheurs ont proposé le concept de « pagination unifiée » et ont implémenté le chevauchement des E/S et des calculs en prélevant les poids des adaptateurs

Unified Paging

Chercheur Étendre le concept de PagedAttention à la pagination unifiée. La pagination unifiée est utilisée non seulement pour gérer le cache KV, mais également pour gérer les poids des adaptateurs. La pagination unifiée utilise un pool de mémoire unifié pour gérer conjointement le cache KV et les poids des adaptateurs. Pour y parvenir, ils allouent d’abord statiquement un grand tampon au pool de mémoire, qui utilise tout l’espace disponible, à l’exception de l’espace utilisé pour stocker les poids du modèle de base et les tenseurs d’activation temporaires. Le cache KV et les poids de l'adaptateur sont stockés dans le pool de mémoire de manière paginée, et chaque page correspond à un vecteur H. Par conséquent, un tenseur de cache KV avec une longueur de séquence S occupe S pages, tandis qu'un tenseur de poids LoRA de niveau R occupe R pages. La figure 3 montre la disposition du pool de mémoire, dans lequel le cache KV et les poids de l'adaptateur sont stockés de manière entrelacée et non contiguë. Cette approche réduit considérablement la fragmentation et garantit que différents niveaux de poids d'adaptateur peuvent coexister avec le cache KV dynamique de manière structurée et systématique. La stratégie tenseur parallèle est conçue pour prendre en charge l'inférence multi-GPU de grands modèles de transformateurs. Le parallélisme tensoriel est l'approche parallèle la plus largement utilisée car son paradigme à programme unique et données multiples simplifie sa mise en œuvre et son intégration avec les systèmes existants. Le parallélisme tensoriel peut réduire l'utilisation de la mémoire et la latence par GPU lors de la diffusion de modèles volumineux. Dans ce contexte, des adaptateurs LoRA supplémentaires introduisent de nouvelles matrices de poids et multiplications matricielles, qui nécessitent de nouvelles stratégies de partitionnement pour ces ajouts.

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Évaluation

Enfin, les chercheurs ont évalué S-LoRA en servant Llama-7B/13B/30B/70B

S-LoRA : Il est possible dexécuter des milliers de grands modèles sur un seul GPU

Les résultats ont montré que S-LoRA peut être utilisé dans un Servez des milliers d'adaptateurs LoRA sur un GPU ou plusieurs GPU avec peu de frais généraux. S-LoRA atteint un débit jusqu'à 30 fois supérieur à celui de Huggingface PEFT, une bibliothèque de réglage fin de pointe et efficace en termes de paramètres. S-LoRA augmente le débit de 4 fois et augmente le nombre d'adaptateurs de service de plusieurs ordres de grandeur par rapport à l'utilisation d'un système de service à haut débit vLLM qui prend en charge les services LoRA.

Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semainesByDDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Version Mac de WebStorm

Outils de développement JavaScript utiles

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7549

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus