Maison >Périphériques technologiques >IA >VLLM: Configuration de VllM localement et sur Google Cloud pour CPU
VLLM (modèle virtuel de grande langue): un guide complet du déploiement local et cloud
VLLM est une bibliothèque puissante pour héberger des modèles de grandes langues (LLM), offrant un contrôle sur la confidentialité des données, les options de personnalisation et des coûts potentiellement inférieurs à la compréhension uniquement des API. Ce guide détaille la configuration de VLLM localement à l'aide de Docker et le déploiement sur Google Cloud, fournissant des solutions évolutives pour divers besoins.
Configuration du processeur local avec docker
Pour les utilisateurs sans accès aux GPU haut de gamme, VLLM propose une image Docker optimisée par le CPU. Cela simplifie le processus, éliminant le besoin d'installation manuelle et de problèmes de compatibilité potentiels.
Étape 1: Construire l'image docker
Commencez par cloner le référentiel VllM. Utilisez le dockerfile approprié (dockerfile.cpu pour les processeurs standard, dockerfile.arm pour les processeurs basés sur des bras comme ceux des Mac):
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Étape 2: Configuration du visage étreint
meta-llama/Llama-3.2-1B-Instruct
pour les tests). Étape 3: Exécution du conteneur Docker
Exécutez la commande suivante, en remplaçant <your_hugging_face_token></your_hugging_face_token>
par votre jeton réel:
docker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>
Le serveur commencera; Une fois que vous voyez «le démarrage d'application terminé», il est prêt.
Interagir avec le LLM
La compatibilité API OpenAI de Vllm permet une interaction transparente en utilisant le code OpenAI existant. Modifiez l'URL de base vers http://localhost:8000/v1
dans votre client OpenAI. L'authentification facultative de la clé API peut être ajoutée via le drapeau --api-key
dans la commande docker run
.
Déplacement de cloud Google
Déployer VllM sur Google Cloud offre une évolutivité.
Étape 1: Configuration de Google Cloud
Créez un nouveau projet Google Cloud (par exemple, "VllM-Demo") et activez le service de registre Artefact.
Étape 2: Créez un référentiel d'artefact
Créer un référentiel Docker nommé "Vllm-CPU" dans le registre des artefacts.
Étape 3: construire et pousser l'image docker
Utilisez le shell cloud pour construire et pousser l'image docker:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Étape 4: Déploiement vers Cloud Run
Créez un service Cloud Run, spécifiant l'image poussée, le port 8000, le jeton de face étreint en tant que variable d'environnement, le nom du modèle et les ressources suffisantes (par exemple, 16 GIB Memory, 4 CPU). Gardez au moins une instance en vie pour minimiser les démarrages du froid.
Interaction avec le LLM LLM
déployéMettez à jour l'URL de base de votre client OpenAI vers l'URL du service d'exécution du cloud.
Considérations de coûts: N'oubliez pas de gérer votre facturation Google Cloud pour éviter les frais inattendus.
Prise en charge du GPU (Google Cloud): La prise en charge du GPU sur Google Cloud Run est disponible sur demande. L'utilisation de l'image vllm/vllm-openai:latest
est recommandée lorsque la prise en charge du GPU est activée.
Hébergement alternatif (RunPod): Les services comme Runpod offrent un déploiement plus simple mais souvent à un coût plus élevé.
Ce guide fournit un aperçu complet du déploiement VLLM. N'oubliez pas de choisir la configuration qui correspond le mieux à vos ressources et à votre budget. Surveillez toujours soigneusement vos coûts de cloud.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!