Maison >Périphériques technologiques >IA >VLLM: Configuration de VllM localement et sur Google Cloud pour CPU

VLLM: Configuration de VllM localement et sur Google Cloud pour CPU

Joseph Gordon-Levitt
Joseph Gordon-Levittoriginal
2025-03-01 09:36:11420parcourir

VLLM (modèle virtuel de grande langue): un guide complet du déploiement local et cloud

VLLM est une bibliothèque puissante pour héberger des modèles de grandes langues (LLM), offrant un contrôle sur la confidentialité des données, les options de personnalisation et des coûts potentiellement inférieurs à la compréhension uniquement des API. Ce guide détaille la configuration de VLLM localement à l'aide de Docker et le déploiement sur Google Cloud, fournissant des solutions évolutives pour divers besoins.

Configuration du processeur local avec docker

Pour les utilisateurs sans accès aux GPU haut de gamme, VLLM propose une image Docker optimisée par le CPU. Cela simplifie le processus, éliminant le besoin d'installation manuelle et de problèmes de compatibilité potentiels.

Étape 1: Construire l'image docker

Commencez par cloner le référentiel VllM. Utilisez le dockerfile approprié (dockerfile.cpu pour les processeurs standard, dockerfile.arm pour les processeurs basés sur des bras comme ceux des Mac):

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

Étape 2: Configuration du visage étreint

  1. Créez un compte de visage étreint et obtenez un jeton API.
  2. demander l'accès à un modèle (par exemple, meta-llama/Llama-3.2-1B-Instruct pour les tests).

Étape 3: Exécution du conteneur Docker

Exécutez la commande suivante, en remplaçant <your_hugging_face_token></your_hugging_face_token> par votre jeton réel:

docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

Le serveur commencera; Une fois que vous voyez «le démarrage d'application terminé», il est prêt.

Interagir avec le LLM

La compatibilité API OpenAI de

Vllm permet une interaction transparente en utilisant le code OpenAI existant. Modifiez l'URL de base vers http://localhost:8000/v1 dans votre client OpenAI. L'authentification facultative de la clé API peut être ajoutée via le drapeau --api-key dans la commande docker run.

Déplacement de cloud Google

Déployer VllM sur Google Cloud offre une évolutivité.

Étape 1: Configuration de Google Cloud

Créez un nouveau projet Google Cloud (par exemple, "VllM-Demo") et activez le service de registre Artefact.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Étape 2: Créez un référentiel d'artefact

Créer un référentiel Docker nommé "Vllm-CPU" dans le registre des artefacts.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Étape 3: construire et pousser l'image docker

Utilisez le shell cloud pour construire et pousser l'image docker:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

Étape 4: Déploiement vers Cloud Run

Créez un service Cloud Run, spécifiant l'image poussée, le port 8000, le jeton de face étreint en tant que variable d'environnement, le nom du modèle et les ressources suffisantes (par exemple, 16 GIB Memory, 4 CPU). Gardez au moins une instance en vie pour minimiser les démarrages du froid.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Interaction avec le LLM LLM

déployé

Mettez à jour l'URL de base de votre client OpenAI vers l'URL du service d'exécution du cloud.

Considérations de coûts: N'oubliez pas de gérer votre facturation Google Cloud pour éviter les frais inattendus.

Prise en charge du GPU (Google Cloud): La prise en charge du GPU sur Google Cloud Run est disponible sur demande. L'utilisation de l'image vllm/vllm-openai:latest est recommandée lorsque la prise en charge du GPU est activée.

Hébergement alternatif (RunPod): Les services comme Runpod offrent un déploiement plus simple mais souvent à un coût plus élevé.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Ce guide fournit un aperçu complet du déploiement VLLM. N'oubliez pas de choisir la configuration qui correspond le mieux à vos ressources et à votre budget. Surveillez toujours soigneusement vos coûts de cloud.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn