Rumah >Peranti teknologi >AI >VLLM: Menyediakan VLLM secara tempatan dan di Google Cloud untuk CPU

VLLM: Menyediakan VLLM secara tempatan dan di Google Cloud untuk CPU

Joseph Gordon-Levitt
Joseph Gordon-Levittasal
2025-03-01 09:36:11420semak imbas

vllm (Model Bahasa Besar Maya): Panduan Komprehensif untuk Penyebaran Tempatan dan Awan

VLLM adalah perpustakaan yang kuat untuk menganjurkan model bahasa besar (LLM), yang menawarkan kawalan ke atas privasi data, pilihan penyesuaian, dan kos yang berpotensi lebih rendah berbanding dengan hanya bergantung pada API. Butiran panduan ini menyediakan VLLM secara tempatan menggunakan Docker dan menggunakannya di Google Cloud, menyediakan penyelesaian berskala untuk pelbagai keperluan.

Persediaan CPU tempatan dengan Docker

Bagi pengguna tanpa akses kepada GPU mewah, VLLM menawarkan imej docker yang dioptimumkan CPU. Ini memudahkan proses, menghapuskan keperluan pemasangan manual dan isu keserasian yang berpotensi.

Langkah 1: Membina Imej Docker

Mulailah dengan mengkloning repositori VLLM. Gunakan DockerFile yang sesuai (dockerfile.cpu untuk CPU standard, dockerfile.arm untuk CPU berasaskan lengan seperti yang ada di Mac):

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu
Langkah 2: Memeluk Konfigurasi Wajah

Buat akaun muka yang memeluk dan dapatkan token API.
  1. Permintaan akses kepada model (mis.,
  2. untuk ujian).
  3. meta-llama/Llama-3.2-1B-Instruct
Langkah 3: Menjalankan Container Docker

jalankan arahan berikut, menggantikan

dengan token sebenar anda:

<your_hugging_face_token></your_hugging_face_token>

Pelayan akan bermula; Sebaik sahaja anda melihat "permulaan aplikasi selesai," sudah siap.
docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

Berinteraksi dengan LLM

keserasian API OpenAI VLLM membolehkan interaksi lancar menggunakan kod OpenAI yang sedia ada. Ubah suai URL asas ke

di klien terbuka anda. Pengesahan utama API pilihan boleh ditambah melalui bendera

dalam perintah http://localhost:8000/v1. --api-key docker run

Google Cloud Deployment

Menggunakan VLLM di Google Cloud menawarkan skalabilitas.

Langkah 1: Persediaan Awan Google

Buat projek Google Cloud baru (mis., "VLLM-Demo") dan aktifkan Perkhidmatan Pendaftaran Artifak.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Langkah 2: Buat repositori artifak

Buat repositori Docker bernama "VLLM-CPU" dalam pendaftaran Artifak.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Langkah 3: Bina dan tolak imej Docker

Gunakan shell awan untuk membina dan menolak imej Docker:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

Langkah 4: Deploy to Cloud Run

Buat perkhidmatan run Cloud, menyatakan imej yang ditolak, port 8000, token muka yang memeluk sebagai pembolehubah persekitaran, nama model, dan sumber yang mencukupi (mis., 16 memori gib, 4 cpus). Pastikan sekurang -kurangnya satu contoh hidup untuk meminimumkan permulaan yang sejuk.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Berinteraksi dengan LLM yang digunakan

Kemas kini URL asas klien Openai anda ke URL Perkhidmatan Awan Run.

Pertimbangan Kos: Ingatlah untuk menguruskan bil Google Cloud anda untuk mengelakkan caj yang tidak dijangka.

Sokongan GPU (Google Cloud): Sokongan GPU di Google Cloud Run tersedia atas permintaan. Menggunakan imej vllm/vllm-openai:latest disyorkan apabila sokongan GPU diaktifkan.

hosting alternatif (RUNPOD): Perkhidmatan seperti RUNPOD menawarkan penempatan yang lebih mudah tetapi sering pada kos yang lebih tinggi.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Panduan ini memberikan gambaran menyeluruh mengenai penggunaan VLLM. Ingatlah untuk memilih persediaan yang paling sesuai dengan sumber dan belanjawan anda. Sentiasa memantau kos awan anda dengan teliti.

Atas ialah kandungan terperinci VLLM: Menyediakan VLLM secara tempatan dan di Google Cloud untuk CPU. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn