首頁 >科技週邊 >人工智慧 >VLLM:在本地設置VLLM,並在Google Cloud上為CPU設置

VLLM:在本地設置VLLM,並在Google Cloud上為CPU設置

Joseph Gordon-Levitt
Joseph Gordon-Levitt原創
2025-03-01 09:36:11426瀏覽

vllm(虛擬大語言模型):本地和雲部署的綜合指南

VLLM是一個強大的庫,用於託管大型語言模型(LLM),與僅依靠API相比,對數據隱私,自定義選項的控制權,定制選項以及可能較低的成本。 本指南詳細信息使用Docker在本地設置VLLM並將其部署在Google Cloud上,為各種需求提供可擴展的解決方案。

>

> docker的本地CPU設置

對於無訪問高端GPU的用戶,VLLM提供了CPU優化的Docker映像。這簡化了過程,消除了對手動安裝和潛在兼容性問題的需求。

>步驟1:構建Docker Image

> 首先克隆VLLM存儲庫。 使用適當的dockerfile(dockerfile.cpu用於標準CPU,dockerfile.arm,用於基於ARM的CPU,例如Macs中的CPU):>

>

步驟2:擁抱臉配置
git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

> 創建一個擁抱的臉部帳戶並獲得一個API令牌。

>
    >請求訪問模型(例如,
  1. 進行測試)。
  2. >
  3. meta-llama/Llama-3.2-1B-Instruct>
  4. 步驟3:運行Docker容器

> 運行以下命令,用您的實際令牌替換

>

<your_hugging_face_token></your_hugging_face_token>服務器將啟動;一旦看到“應用程序啟動完成”,就已經準備就緒。

與llm
docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

> VLLM的OpenAI API兼容性允許使用現有OpenAI代碼的無縫交互。 將基本URL修改為OpenAI客戶端中的

。 可以通過>命令中的flag添加可選的API密鑰身份驗證。

http://localhost:8000/v1 Google Cloud部署--api-keydocker run 在Google Cloud上部署VLLM提供可伸縮性。

>步驟1:Google Cloud Setup

>創建一個新的Google雲項目(例如,“ VLLM-DEMO”),並啟用工件註冊表服務。

>vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 步驟2:創建一個偽影存儲庫vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU > vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 創建一個名為“ Vllm-cpu”的Docker存儲庫。

>

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

>>步驟3:構建並推動Docker Image

>

>使用雲外殼來構建和推動Docker映像:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

>步驟4:部署到雲運行

>

>創建一個雲運行服務,指定了推送的圖像,端口8000,擁抱面象代幣作為環境變量,模型名稱和足夠的資源(例如16 GIB內存,4 CPU)。 保持至少一個實例,以最大程度地減少寒冷的開始。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

與已部署的LLM

> >將您的OpenAI客戶端的基本URL更新為雲運行服務URL。

成本注意事項:

記住要管理您的Google Cloud賬單以避免出現意外費用。

GPU支持(Google cloud):

GPU在Google Cloud上可以根據要求提供。 啟用GPU支持時,建議使用

>圖像。 > > vllm/vllm-openai:latest替代託管(runpod):

像runpod這樣的服務提供更簡單的部署,但通常以較高的成本為本。 >

>本指南提供了VLLM部署的全面概述。 切記選擇最適合您的資源和預算的設置。 始終仔細監視您的云成本。

以上是VLLM:在本地設置VLLM,並在Google Cloud上為CPU設置的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn