首页 >科技周边 >人工智能 >VLLM：在本地设置VLLM，并在Google Cloud上为CPU设置

VLLM：在本地设置VLLM，并在Google Cloud上为CPU设置

Joseph Gordon-Levitt原创: 2025-03-01 09:36:11420浏览

vllm（虚拟大语言模型）：本地和云部署的综合指南

VLLM是一个强大的库，用于托管大型语言模型（LLM），与仅依靠API相比，对数据隐私，自定义选项的控制权，定制选项以及可能较低的成本。本指南详细信息使用Docker在本地设置VLLM并将其部署在Google Cloud上，为各种需求提供可扩展的解决方案。

> docker的本地CPU设置

对于无访问高端GPU的用户，VLLM提供了CPU优化的Docker映像。这简化了过程，消除了对手动安装和潜在兼容性问题的需求。

>步骤1：构建Docker Image

> 首先克隆VLLM存储库。使用适当的dockerfile（dockerfile.cpu用于标准CPU，dockerfile.arm，用于基于ARM的CPU，例如Macs中的CPU）：>

步骤2：拥抱脸配置

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

> 创建一个拥抱的脸部帐户并获得一个API令牌。

进行测试）。
meta-llama/Llama-3.2-1B-Instruct>

> 运行以下命令，用您的实际令牌替换：

<your_hugging_face_token></your_hugging_face_token>服务器将启动；一旦看到“应用程序启动完成”，就已经准备就绪。

与llm

docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>

> VLLM的OpenAI API兼容性允许使用现有OpenAI代码的无缝交互。将基本URL修改为OpenAI客户端中的

。可以通过>命令中的flag添加可选的API密钥身份验证。

。

http://localhost:8000/v1 Google Cloud部署--api-keydocker run 在Google Cloud上部署VLLM提供可伸缩性。

>步骤1：Google Cloud Setup

>创建一个新的Google云项目（例如，“ VLLM-DEMO”），并启用工件注册表服务。

> vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 步骤2：创建一个伪影存储库> 创建一个名为“ Vllm-cpu”的Docker存储库。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

>>步骤3：构建并推动Docker Image

>使用云外壳来构建和推动Docker映像：

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

>步骤4：部署到云运行

>创建一个云运行服务，指定了推送的图像，端口8000，拥抱面象代币作为环境变量，模型名称和足够的资源（例如16 GIB内存，4 CPU）。保持至少一个实例，以最大程度地减少寒冷的开始。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

与已部署的LLM

> >将您的OpenAI客户端的基本URL更新为云运行服务URL。

成本注意事项：

记住要管理您的Google Cloud账单以避免出现意外费用。

GPU支持（Google cloud）：

GPU在Google Cloud上可以根据要求提供。启用GPU支持时，建议使用

>图像。> > vllm/vllm-openai:latest替代托管（runpod）：

像runpod这样的服务提供更简单的部署，但通常以较高的成本为本。>

>本指南提供了VLLM部署的全面概述。切记选择最适合您的资源和预算的设置。始终仔细监视您的云成本。

以上是VLLM：在本地设置VLLM，并在Google Cloud上为CPU设置的详细内容。更多信息请关注PHP中文网其他相关文章！

for Token using this docker http llama Access

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Artificial Immune System (AIS): A Guide With Python Examples下一篇：Nvidia's Llama-Mesh: A Guide With Examples

查看更多