vllm(虚拟大语言模型):本地和云部署的综合指南
VLLM是一个强大的库,用于托管大型语言模型(LLM),与仅依靠API相比,对数据隐私,自定义选项的控制权,定制选项以及可能较低的成本。 本指南详细信息使用Docker在本地设置VLLM并将其部署在Google Cloud上,为各种需求提供可扩展的解决方案。>
> docker的本地CPU设置对于无访问高端GPU的用户,VLLM提供了CPU优化的Docker映像。这简化了过程,消除了对手动安装和潜在兼容性问题的需求。
>步骤1:构建Docker Image
> 首先克隆VLLM存储库。 使用适当的dockerfile(dockerfile.cpu用于标准CPU,dockerfile.arm,用于基于ARM的CPU,例如Macs中的CPU):>
>
步骤2:拥抱脸配置git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
> 创建一个拥抱的脸部帐户并获得一个API令牌。
>meta-llama/Llama-3.2-1B-Instruct
>> 运行以下命令,用您的实际令牌替换:
>
<your_hugging_face_token></your_hugging_face_token>
服务器将启动;一旦看到“应用程序启动完成”,就已经准备就绪。
docker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>> VLLM的OpenAI API兼容性允许使用现有OpenAI代码的无缝交互。 将基本URL修改为OpenAI客户端中的
。 可以通过>命令中的flag添加可选的API密钥身份验证。
。 http://localhost:8000/v1
Google Cloud部署--api-key
docker run
在Google Cloud上部署VLLM提供可伸缩性。
>步骤1:Google Cloud Setup
>创建一个新的Google云项目(例如,“ VLLM-DEMO”),并启用工件注册表服务。
>步骤2:创建一个伪影存储库
>
创建一个名为“ Vllm-cpu”的Docker存储库。
>>步骤3:构建并推动Docker Image
>>使用云外壳来构建和推动Docker映像:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
>步骤4:部署到云运行
>>创建一个云运行服务,指定了推送的图像,端口8000,拥抱面象代币作为环境变量,模型名称和足够的资源(例如16 GIB内存,4 CPU)。 保持至少一个实例,以最大程度地减少寒冷的开始。
> >将您的OpenAI客户端的基本URL更新为云运行服务URL。
成本注意事项:
记住要管理您的Google Cloud账单以避免出现意外费用。GPU支持(Google cloud):
GPU在Google Cloud上可以根据要求提供。 启用GPU支持时,建议使用>图像。>
> vllm/vllm-openai:latest
替代托管(runpod):
>本指南提供了VLLM部署的全面概述。 切记选择最适合您的资源和预算的设置。 始终仔细监视您的云成本。
以上是VLLM:在本地设置VLLM,并在Google Cloud上为CPU设置的详细内容。更多信息请关注PHP中文网其他相关文章!