Lambda 實驗室現在推出 GH200 半價優惠,讓更多人習慣 ARM 工具。這意味著您實際上可能有能力運行最大的開源模型!唯一需要注意的是,您有時必須從原始程式碼建立一些東西。以下是我如何讓 llama 405b 在 GH200s 上高精度運行。
Llama 405b 約為 750GB,因此您需要大約 10 個 96GB GPU 來運行它。 (GH200 具有相當不錯的CPU-GPU 記憶體交換速度——這就是GH200 的全部意義——因此您可以使用少至3 個。每個令牌的時間會很糟糕,但總吞吐量是可以接受的,如果您正在執行批次處理。 確保為它們提供相同的共用網路檔案系統。
將 IP 位址儲存到 ~/ips.txt。
我更喜歡直接 bash 和 ssh,而不是 kubernetes 或 slurm 等任何花哨的東西。借助一些助手即可輕鬆管理。
我們將把 python 環境和模型權重放在 NFS 中。如果我們快取它,載入速度會快得多。
我們可以在 NFS 中使用 conda 環境,並只用頭節點來控制它,而不是在每台機器上小心地執行完全相同的命令。
Aphrodite 是 vllm 的一個分支,啟動速度更快,並且有一些額外的功能。
它將運行相容 openai 的推理 API 和模型本身。
你需要手電筒、Triton 和閃光注意。
您可以從 pytorch.org 取得 aarch64 torch 建置(您不想自己建置它)。
另外兩個你可以自己建造或使用我做的輪子。
如果您從原始程式碼構建,那麼您可以透過在三台不同的機器上並行運行 triton、flash-attention 和 aphrodite 的 python setup.py bdist_wheel 來節省一些時間。或者您可以在同一台機器上逐一執行它們。
你可以使用我的輪子或自己建造。
前往 https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct 並確保您擁有正確的權限。批准通常需要大約一個小時。從 https://huggingface.co/settings/tokens
取得令牌
我們將透過啟動 ray 讓伺服器相互了解。
我們可以在一個終端選項卡中啟動阿芙羅狄蒂:
並在第二個終端機中從本機電腦執行查詢:
對於文字來說速度不錯,但是對於程式碼來說有點慢。如果您連接 2 台 8xH100 伺服器,那麼每秒會接近 16 個令牌,但成本是原來的三倍。
以上是如何使用 ghs 運行 llama b bf的詳細內容。更多資訊請關注PHP中文網其他相關文章!