vllm(虛擬大語言模型):本地和雲部署的綜合指南
VLLM是一個強大的庫,用於託管大型語言模型(LLM),與僅依靠API相比,對數據隱私,自定義選項的控制權,定制選項以及可能較低的成本。 本指南詳細信息使用Docker在本地設置VLLM並將其部署在Google Cloud上,為各種需求提供可擴展的解決方案。>
> docker的本地CPU設置對於無訪問高端GPU的用戶,VLLM提供了CPU優化的Docker映像。這簡化了過程,消除了對手動安裝和潛在兼容性問題的需求。
>步驟1:構建Docker Image
> 首先克隆VLLM存儲庫。 使用適當的dockerfile(dockerfile.cpu用於標準CPU,dockerfile.arm,用於基於ARM的CPU,例如Macs中的CPU):>
>
步驟2:擁抱臉配置git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
> 創建一個擁抱的臉部帳戶並獲得一個API令牌。
>meta-llama/Llama-3.2-1B-Instruct
>> 運行以下命令,用您的實際令牌替換:
>
<your_hugging_face_token></your_hugging_face_token>
服務器將啟動;一旦看到“應用程序啟動完成”,就已經準備就緒。
docker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>> VLLM的OpenAI API兼容性允許使用現有OpenAI代碼的無縫交互。 將基本URL修改為OpenAI客戶端中的
。 可以通過>命令中的flag添加可選的API密鑰身份驗證。
。 http://localhost:8000/v1
Google Cloud部署--api-key
docker run
在Google Cloud上部署VLLM提供可伸縮性。
>步驟1:Google Cloud Setup
>創建一個新的Google雲項目(例如,“ VLLM-DEMO”),並啟用工件註冊表服務。
>步驟2:創建一個偽影存儲庫
>
創建一個名為“ Vllm-cpu”的Docker存儲庫。
>>步驟3:構建並推動Docker Image
>>使用雲外殼來構建和推動Docker映像:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
>步驟4:部署到雲運行
>>創建一個雲運行服務,指定了推送的圖像,端口8000,擁抱面象代幣作為環境變量,模型名稱和足夠的資源(例如16 GIB內存,4 CPU)。 保持至少一個實例,以最大程度地減少寒冷的開始。
> >將您的OpenAI客戶端的基本URL更新為雲運行服務URL。
成本注意事項:
記住要管理您的Google Cloud賬單以避免出現意外費用。GPU支持(Google cloud):
GPU在Google Cloud上可以根據要求提供。 啟用GPU支持時,建議使用>圖像。 >
> vllm/vllm-openai:latest
替代託管(runpod):
>本指南提供了VLLM部署的全面概述。 切記選擇最適合您的資源和預算的設置。 始終仔細監視您的云成本。
以上是VLLM:在本地設置VLLM,並在Google Cloud上為CPU設置的詳細內容。更多資訊請關注PHP中文網其他相關文章!