Heim >Technologie-Peripheriegeräte >KI >VLLM: Einrichten von VLLM lokal und auf Google Cloud für CPU

VLLM: Einrichten von VLLM lokal und auf Google Cloud für CPU

Joseph Gordon-LevittOriginal: 2025-03-01 09:36:11420Durchsuche

vllm (virtuelles großes Sprachmodell): Eine umfassende Anleitung zur lokalen und Cloud -Bereitstellung

vllm ist eine leistungsstarke Bibliothek für das Hosting von großsprachigen Modellen (LLMs), das die Kontrolle über Datenschutz, Anpassungsoptionen und möglicherweise niedrigere Kosten bietet als nur auf APIs. Diese Handbuchdetails Einrichten von VLLM lokal mit Docker und Bereitstellen in Google Cloud, die skalierbare Lösungen für verschiedene Anforderungen bereitstellen.

Lokales CPU -Setup mit Docker

für Benutzer ohne Zugriff auf High-End-GPUs bietet VLLM ein CPU-optimiertes Docker-Image. Dies vereinfacht den Prozess und beseitigt die Notwendigkeit einer manuellen Installation und potenzielle Kompatibilitätsprobleme.

Schritt 1: Erstellen des Docker -Bildes

Beginnen Sie mit dem Klonen des VLLM -Repositorys. Verwenden Sie die entsprechende Dockerfile (Dockerfile.cpu für Standard-CPUs, Dockerfile.ARM für ARM-basierte CPUs wie die in Macs):

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

Schritt 2: Umarmung der Gesichtskonfiguration

Erstellen Sie ein umarmendes Gesichtskonto und erhalten Sie ein API -Token.
Zugriff auf ein Modell anfordern (z. B. meta-llama/Llama-3.2-1B-Instruct zum Testen).

Schritt 3: Ausführen des Docker -Containers

Führen Sie den folgenden Befehl aus und ersetzen Sie <your_hugging_face_token></your_hugging_face_token> durch Ihr tatsächliches Token:

docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

Der Server startet; Sobald Sie "Anwendungsstart abgeschlossen" sehen, ist es fertig.

mit dem LLM

interagieren Die OpenAI -API -Kompatibilität von

vllm ermöglicht eine nahtlose Interaktion mithilfe des vorhandenen OpenAI -Code. Ändern Sie die Basis -URL in Ihrem OpenAI -Kunden in http://localhost:8000/v1. Die optionale API -Schlüsselauthentifizierung kann über das Flag --api-key im Befehl docker run hinzugefügt werden.

Google Cloud -Bereitstellung

Bereitstellen von VLLM in Google Cloud bietet Skalierbarkeit.

Schritt 1: Google Cloud Setup

Erstellen Sie ein neues Google Cloud-Projekt (z. B. "Vllm-Demo") und aktivieren Sie den Artefaktregistrierungsdienst.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Schritt 2: Erstellen Sie ein Artefakt -Repository

Erstellen Sie ein Docker-Repository mit dem Namen "vllm-cpu" in der Artefaktregistrierung.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Schritt 3: Erstellen und drücken Sie das Docker -Bild

Verwenden Sie die Cloud -Shell, um das Docker -Bild zu erstellen und zu schieben:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

Schritt 4: Bereitstellen in Cloud -Ausführen

Erstellen Sie einen Cloud -Lauf -Dienst, der das Pushed -Bild, Port 8000, das umarmende Gesichts -Token als Umgebungsvariable, den Modellnamen und ausreichende Ressourcen (z. B. 16 GIB -Speicher, 4 CPUs) angeben. Halten Sie mindestens eine Instanz am Leben, um die Erkältungsstarts zu minimieren.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

interagieren mit dem bereitgestellten LLM

aktualisieren

Kostenüberlegungen: Denken Sie daran, Ihre Google Cloud -Abrechnung zu verwalten, um unerwartete Gebühren zu vermeiden.

GPU -Unterstützung (Google Cloud): GPU -Unterstützung auf Google Cloud -Lauf ist auf Anfrage verfügbar. Die Verwendung des Bildes wird empfohlen, wenn die GPU -Unterstützung aktiviert ist. vllm/vllm-openai:latest

Alternatives Hosting (RunPod): Dienste wie RunPod bieten eine einfachere Bereitstellung, aber häufig zu höheren Kosten.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Dieser Leitfaden bietet einen umfassenden Überblick über die VLLM -Bereitstellung. Denken Sie daran, das Setup auszuwählen, das am besten zu Ihren Ressourcen und Ihrem Budget passt. Überwachen Sie Ihre Cloud -Kosten immer sorgfältig.

Das obige ist der detaillierte Inhalt vonVLLM: Einrichten von VLLM lokal und auf Google Cloud für CPU. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for Token using this docker http llama Access

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Künstliches Immunsystem (AIS): Ein Leitfaden mit Python -BeispielenNächster Artikel：Künstliches Immunsystem (AIS): Ein Leitfaden mit Python -Beispielen

In Verbindung stehende Artikel

Mehr sehen