首頁 >科技週邊 >人工智慧 >VLLM：在本地設置VLLM，並在Google Cloud上為CPU設置

VLLM：在本地設置VLLM，並在Google Cloud上為CPU設置

Joseph Gordon-Levitt原創: 2025-03-01 09:36:11426瀏覽

vllm（虛擬大語言模型）：本地和雲部署的綜合指南

VLLM是一個強大的庫，用於託管大型語言模型（LLM），與僅依靠API相比，對數據隱私，自定義選項的控制權，定制選項以及可能較低的成本。本指南詳細信息使用Docker在本地設置VLLM並將其部署在Google Cloud上，為各種需求提供可擴展的解決方案。

> docker的本地CPU設置

對於無訪問高端GPU的用戶，VLLM提供了CPU優化的Docker映像。這簡化了過程，消除了對手動安裝和潛在兼容性問題的需求。

>步驟1：構建Docker Image

> 首先克隆VLLM存儲庫。使用適當的dockerfile（dockerfile.cpu用於標準CPU，dockerfile.arm，用於基於ARM的CPU，例如Macs中的CPU）：>

步驟2：擁抱臉配置

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

> 創建一個擁抱的臉部帳戶並獲得一個API令牌。

進行測試）。
meta-llama/Llama-3.2-1B-Instruct>

> 運行以下命令，用您的實際令牌替換：

<your_hugging_face_token></your_hugging_face_token>服務器將啟動；一旦看到“應用程序啟動完成”，就已經準備就緒。

與llm

docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

> VLLM的OpenAI API兼容性允許使用現有OpenAI代碼的無縫交互。將基本URL修改為OpenAI客戶端中的

。可以通過>命令中的flag添加可選的API密鑰身份驗證。

。

http://localhost:8000/v1 Google Cloud部署--api-keydocker run 在Google Cloud上部署VLLM提供可伸縮性。

>步驟1：Google Cloud Setup

>創建一個新的Google雲項目（例如，“ VLLM-DEMO”），並啟用工件註冊表服務。

> vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 步驟2：創建一個偽影存儲庫> 創建一個名為“ Vllm-cpu”的Docker存儲庫。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

>>步驟3：構建並推動Docker Image

>使用雲外殼來構建和推動Docker映像：

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

>步驟4：部署到雲運行

>創建一個雲運行服務，指定了推送的圖像，端口8000，擁抱面象代幣作為環境變量，模型名稱和足夠的資源（例如16 GIB內存，4 CPU）。保持至少一個實例，以最大程度地減少寒冷的開始。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

與已部署的LLM

> >將您的OpenAI客戶端的基本URL更新為雲運行服務URL。

成本注意事項：

記住要管理您的Google Cloud賬單以避免出現意外費用。

GPU支持（Google cloud）：

GPU在Google Cloud上可以根據要求提供。啟用GPU支持時，建議使用

>圖像。 > > vllm/vllm-openai:latest替代託管（runpod）：

像runpod這樣的服務提供更簡單的部署，但通常以較高的成本為本。 >

>本指南提供了VLLM部署的全面概述。切記選擇最適合您的資源和預算的設置。始終仔細監視您的云成本。

以上是VLLM：在本地設置VLLM，並在Google Cloud上為CPU設置的詳細內容。更多資訊請關注PHP中文網其他相關文章！

for Token using this docker http llama Access

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：人工免疫系統（AIS）：python示例的指南下一篇：人工免疫系統（AIS）：python示例的指南

看更多