ホームページ >テクノロジー周辺機器 >AI >VLLM:CPUのためにvllmをローカルに設定し、Googleクラウドでセットアップ

VLLM:CPUのためにvllmをローカルに設定し、Googleクラウドでセットアップ

Joseph Gordon-Levitt
Joseph Gordon-Levittオリジナル
2025-03-01 09:36:11420ブラウズ

vllm(仮想大規模な言語モデル):ローカルおよびクラウドの展開に関する包括的なガイド

VLLMは、大規模な言語モデル(LLM)をホストするための強力なライブラリであり、データのプライバシー、カスタマイズオプション、およびAPIのみに依存するのと比較してコストが低い可能性が低いことを制御します。 このガイドは、Dockerを使用してVLLMをローカルに設定し、Googleクラウドに展開し、さまざまなニーズに合わせてスケーラブルなソリューションを提供します。

docker ハイエンドGPUにアクセスできないユーザーの場合、VLLMはCPU最適化されたDocker画像を提供します。これにより、プロセスが簡素化され、手動インストールの必要性と潜在的な互換性の問題が排除されます。

ステップ1:Dockerイメージの構築

VLLMリポジトリのクローニングから始めます。 適切なdockerfile(標準CPUの場合はdockerfile.cpu、macのようなアームベースのcpuのdockerfile.arm)を使用してください:

ステップ2:顔の構成を抱き締める

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

抱きしめるフェイスアカウントを作成して、APIトークンを取得します。 モデルへのアクセスをリクエストします(テストの場合は

など)。
  1. ステップ3:dockerコンテナの実行meta-llama/Llama-3.2-1B-Instruct
次のコマンドを実行して、

を実際のトークンに置き換えます。 サーバーが起動します。 「アプリケーションスタートアップが完了した」が表示されたら、準備ができています。

LLM VLLMのOpenAI API互換性により、既存のOpenAIコードを使用したシームレスな相互作用が可能になります。 OpenAIクライアントのベースURLを<your_hugging_face_token></your_hugging_face_token>に変更します。 オプションのAPIキー認証は、コマンドの
docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>
フラグを介して追加できます。

Google Cloud deployment Google CloudにVLLMを展開する

スケーラビリティが提供されます

http://localhost:8000/v1ステップ1:Googleクラウドのセットアップ--api-keydocker run

新しいGoogle Cloudプロジェクト( "vllm-demo")を作成し、Artifactレジストリサービスを有効にします。

ステップ2:アーティファクトリポジトリを作成

アーティファクトレジストリに「vllm-cpu」という名前のDockerリポジトリを作成します。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

ステップ3:docker画像を構築して押します

クラウドシェルを使用して、ドッカーイメージを構築してプッシュします。

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu

ステップ4:クラウドランにデプロイ

クラウドランサービスを作成し、プッシュ画像、ポート8000​​、環境変数、モデル名、および十分なリソースとしてのハグフェイストークンを指定します(たとえば、16 GIBメモリ、4 CPU)。 コールドスタートを最小限に抑えるために、少なくとも1つのインスタンスを生かし続けてください。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

展開されたLLMとの対話

OpenaiクライアントのベースURLをクラウドランサービスURLに更新します。

コストに関する考慮事項:

予期しない料金を回避するために、Googleクラウドの請求を管理することを忘れないでください。

GPUサポート(Google Cloud):Google Cloud RunでのGPUサポートは、リクエストに応じて利用できます。 GPUサポートが有効になっている場合は、

画像を使用することをお勧めします。

代替ホスティング(runpod):runpodのようなサービスは、より単純な展開を提供しますが、多くの場合より高いコストで提供されます。 vllm/vllm-openai:latest

このガイドは、VLLM展開の包括的な概要を提供します。 リソースと予算に最適なセットアップを選択してください。 クラウドコストを常に慎重に監視してください。

以上がVLLM:CPUのためにvllmをローカルに設定し、Googleクラウドでセットアップの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。