ホームページ >テクノロジー周辺機器 >AI >VLLM:CPUのためにvllmをローカルに設定し、Googleクラウドでセットアップ
vllm(仮想大規模な言語モデル):ローカルおよびクラウドの展開に関する包括的なガイド
VLLMは、大規模な言語モデル(LLM)をホストするための強力なライブラリであり、データのプライバシー、カスタマイズオプション、およびAPIのみに依存するのと比較してコストが低い可能性が低いことを制御します。 このガイドは、Dockerを使用してVLLMをローカルに設定し、Googleクラウドに展開し、さまざまなニーズに合わせてスケーラブルなソリューションを提供します。
docker ハイエンドGPUにアクセスできないユーザーの場合、VLLMはCPU最適化されたDocker画像を提供します。これにより、プロセスが簡素化され、手動インストールの必要性と潜在的な互換性の問題が排除されます。
ステップ1:Dockerイメージの構築VLLMリポジトリのクローニングから始めます。 適切なdockerfile(標準CPUの場合はdockerfile.cpu、macのようなアームベースのcpuのdockerfile.arm)を使用してください:
ステップ2:顔の構成を抱き締める
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
抱きしめるフェイスアカウントを作成して、APIトークンを取得します。 モデルへのアクセスをリクエストします(テストの場合は
など)。meta-llama/Llama-3.2-1B-Instruct
を実際のトークンに置き換えます。 サーバーが起動します。 「アプリケーションスタートアップが完了した」が表示されたら、準備ができています。
LLM VLLMのOpenAI API互換性により、既存のOpenAIコードを使用したシームレスな相互作用が可能になります。 OpenAIクライアントのベースURLを<your_hugging_face_token></your_hugging_face_token>
に変更します。 オプションのAPIキー認証は、コマンドのdocker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>フラグを介して追加できます。
Google Cloud deployment Google CloudにVLLMを展開する
スケーラビリティが提供されますhttp://localhost:8000/v1
ステップ1:Googleクラウドのセットアップ--api-key
docker run
ステップ2:アーティファクトリポジトリを作成
アーティファクトレジストリに「vllm-cpu」という名前のDockerリポジトリを作成します。
ステップ3:docker画像を構築して押します
クラウドシェルを使用して、ドッカーイメージを構築してプッシュします。
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
ステップ4:クラウドランにデプロイ
クラウドランサービスを作成し、プッシュ画像、ポート8000、環境変数、モデル名、および十分なリソースとしてのハグフェイストークンを指定します(たとえば、16 GIBメモリ、4 CPU)。 コールドスタートを最小限に抑えるために、少なくとも1つのインスタンスを生かし続けてください。
OpenaiクライアントのベースURLをクラウドランサービスURLに更新します。
コストに関する考慮事項:
予期しない料金を回避するために、Googleクラウドの請求を管理することを忘れないでください。GPUサポート(Google Cloud):Google Cloud RunでのGPUサポートは、リクエストに応じて利用できます。 GPUサポートが有効になっている場合は、
画像を使用することをお勧めします。代替ホスティング(runpod):runpodのようなサービスは、より単純な展開を提供しますが、多くの場合より高いコストで提供されます。
vllm/vllm-openai:latest
このガイドは、VLLM展開の包括的な概要を提供します。 リソースと予算に最適なセットアップを選択してください。 クラウドコストを常に慎重に監視してください。
以上がVLLM:CPUのためにvllmをローカルに設定し、Googleクラウドでセットアップの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。