Heim >Backend-Entwicklung >Python-Tutorial >So führen Sie Lama B BF mit GHS aus

So führen Sie Lama B BF mit GHS aus

Patricia Arquette
Patricia ArquetteOriginal
2024-12-23 22:18:15139Durchsuche

Lambda Labs bietet derzeit GH200 zum halben Preis an, um mehr Menschen an die ARM-Werkzeuge zu gewöhnen. Das bedeutet, dass Sie es sich vielleicht tatsächlich leisten können, die größten Open-Source-Modelle zu betreiben! Die einzige Einschränkung besteht darin, dass Sie gelegentlich etwas aus dem Quellcode erstellen müssen. So habe ich Lama 405b auf der GH200s mit voller Präzision zum Laufen gebracht.

Erstellen Sie Instanzen

Llama 405b ist etwa 750 GB groß, Sie benötigen also etwa 10 96-GB-GPUs, um es auszuführen. (Die GH200 hat eine ziemlich gute CPU-GPU-Speicheraustauschgeschwindigkeit – das ist sozusagen der ganze Sinn der GH200 – Sie können also nur 3 verwenden. Die Zeit pro Token wird schrecklich sein, aber der Gesamtdurchsatz ist akzeptabel, wenn Sie führen eine Stapelverarbeitung durch.) Melden Sie sich bei Lambda Labs an und erstellen Sie eine Reihe von GH200-Instanzen. Stellen Sie sicher, dass Sie allen das gleiche gemeinsame Netzwerkdateisystem geben.

How to run llama b bfwith ghs

Speichern Sie die IP-Adressen in ~/ips.txt.

Massen-SSH-Verbindungshelfer

Ich bevorzuge direktes Bash und SSH gegenüber allem Ausgefallenen wie Kubernetes oder Slurm. Mit einigen Helfern ist es zu bewältigen.

# skip fingerprint confirmation
for ip in $(cat ~/ips.txt); do
    echo "doing $ip"
    ssh-keyscan $ip >> ~/.ssh/known_hosts
done

function run_ip() {
    ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip -- stdbuf -oL -eL bash -l -c "$(printf "%q" "$*")" < /dev/null
}
function run_k() { ip=$(sed -n "$k"p ~/ips.txt) run_ip "$@"; }
function runhead() { ip="$(head -n1 ~/ips.txt)" run_ip "$@"; }

function run_ips() {
    for ip in $ips; do
        ip=$ip run_ip "$@" |& sed "s/^/$ip\t /" &
        # pids="$pids $!"
    done
    wait &> /dev/null
}
function runall() { ips="$(cat ~/ips.txt)" run_ips "$@"; }
function runrest() { ips="$(tail -n+2 ~/ips.txt)" run_ips "$@"; }

function ssh_k() {
    ip=$(sed -n "$k"p ~/ips.txt)
    ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip
}
alias ssh_head='k=1 ssh_k'

function killall() {
    pkill -ife '.ssh/lambda_id_ed25519'
    sleep 1
    pkill -ife -9 '.ssh/lambda_id_ed25519'
    while [[ -n "$(jobs -p)" ]]; do fg || true; done
}

Richten Sie den NFS-Cache ein

Wir werden die Python-Umgebung und die Modellgewichte in das NFS einfügen. Es wird viel schneller geladen, wenn wir es zwischenspeichern.

# First, check the NFS works.
# runall ln -s my_other_fs_name shared
runhead 'echo world > shared/hello'
runall cat shared/hello

# Install and enable cachefilesd
runall sudo apt-get update
runall sudo apt-get install -y cachefilesd
runall "echo '
RUN=yes
CACHE_TAG=mycache
CACHE_BACKEND=Path=/var/cache/fscache
CACHEFS_RECLAIM=0
' | sudo tee -a /etc/default/cachefilesd"
runall sudo systemctl restart cachefilesd
runall 'sudo journalctl -u cachefilesd | tail -n2'

# Set the "fsc" option on the NFS mount
runhead cat /etc/fstab # should have mount to ~/shared
runall cp /etc/fstab etc-fstab-bak.txt
runall sudo sed -i 's/,proto=tcp,/,proto=tcp,fsc,/g' /etc/fstab
runall cat /etc/fstab

# Remount
runall sudo umount /home/ubuntu/wash2
runall sudo mount /home/ubuntu/wash2
runall cat /proc/fs/nfsfs/volumes # FSC column should say "yes"

# Test cache speedup
runhead dd if=/dev/urandom of=shared/bigfile bs=1M count=8192
runall dd if=shared/bigfile of=/dev/null bs=1M # First one takes 8 seconds
runall dd if=shared/bigfile of=/dev/null bs=1M # Seond takes 0.6 seconds

Erstellen Sie eine Conda-Umgebung

Anstatt auf jeder Maschine genau die gleichen Befehle sorgfältig auszuführen, können wir eine Conda-Umgebung im NFS verwenden und sie einfach mit dem Hauptknoten steuern.

# We'll also use a shared script instead of changing ~/.profile directly.
# Easier to fix mistakes that way.
runhead 'echo ". /opt/miniconda/etc/profile.d/conda.sh" >> shared/common.sh'
runall 'echo "source /home/ubuntu/shared/common.sh" >> ~/.profile'
runall which conda

# Create the environment
runhead 'conda create --prefix ~/shared/311 -y python=3.11'
runhead '~/shared/311/bin/python --version' # double-check that it is executable
runhead 'echo "conda activate ~/shared/311" >> shared/common.sh'
runall which python

Installieren Sie Aphrodite-Abhängigkeiten

Aphrodite ist eine Abzweigung von vllm, die etwas schneller startet und einige zusätzliche Funktionen bietet.
Es führt die OpenAI-kompatible Inferenz-API und das Modell selbst aus.

Sie benötigen Taschenlampe, Triton und Blitzlicht.
Sie können aarch64-Fackel-Builds von pytorch.org erhalten (Sie möchten es nicht selbst erstellen).
Die anderen beiden kannst du entweder selbst bauen oder das Rad verwenden, das ich gemacht habe.

Wenn Sie aus dem Quellcode erstellen, können Sie etwas Zeit sparen, indem Sie python setup.py bdist_wheel für Triton, Flash-Attention und Aphrodite parallel auf drei verschiedenen Computern ausführen. Oder Sie können sie einzeln auf derselben Maschine ausführen.

runhead pip install 'numpy<2' torch==2.4.0 --index-url 'https://download.pytorch.org/whl/cu124'

# fix for "libstdc++.so.6: version `GLIBCXX_3.4.30' not found" error:
runhead conda install -y -c conda-forge libstdcxx-ng=12

runhead python -c 'import torch; print(torch.tensor(2).cuda() + 2, "torch ok")'

Triton & Flash-Aufmerksamkeit von Rädern

runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/triton-3.2.0+git755d4164-cp311-cp311-linux_aarch64.whl'
runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_flash_attn-2.6.1.post2-cp311-cp311-linux_aarch64.whl'

Triton aus der Quelle

k=1 ssh_k # ssh into first machine

pip install -U pip setuptools wheel ninja cmake setuptools_scm
git config --global feature.manyFiles true # faster clones
git clone https://github.com/triton-lang/triton.git ~/shared/triton
cd ~/shared/triton/python
git checkout 755d4164 # <-- optional, tested versions
# Note that ninja already parallelizes everything to the extent possible,
# so no sense trying to change the cmake flags or anything.
python setup.py bdist_wheel
pip install --no-deps dist/*.whl # good idea to download this too for later
python -c 'import triton; print("triton ok")'

Flash-Aufmerksamkeit von der Quelle

k=2 ssh_k # go into second machine

git clone https://github.com/AlpinDale/flash-attention  ~/shared/flash-attention
cd ~/shared/flash-attention
python setup.py bdist_wheel
pip install --no-deps dist/*.whl
python -c 'import aphrodite_flash_attn; import aphrodite_flash_attn_2_cuda; print("flash attn ok")'

Installieren Sie Aphrodite

Sie können mein Rad verwenden oder es selbst bauen.

Aphrodite vom Rad

# skip fingerprint confirmation
for ip in $(cat ~/ips.txt); do
    echo "doing $ip"
    ssh-keyscan $ip >> ~/.ssh/known_hosts
done

function run_ip() {
    ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip -- stdbuf -oL -eL bash -l -c "$(printf "%q" "$*")" < /dev/null
}
function run_k() { ip=$(sed -n "$k"p ~/ips.txt) run_ip "$@"; }
function runhead() { ip="$(head -n1 ~/ips.txt)" run_ip "$@"; }

function run_ips() {
    for ip in $ips; do
        ip=$ip run_ip "$@" |& sed "s/^/$ip\t /" &
        # pids="$pids $!"
    done
    wait &> /dev/null
}
function runall() { ips="$(cat ~/ips.txt)" run_ips "$@"; }
function runrest() { ips="$(tail -n+2 ~/ips.txt)" run_ips "$@"; }

function ssh_k() {
    ip=$(sed -n "$k"p ~/ips.txt)
    ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip
}
alias ssh_head='k=1 ssh_k'

function killall() {
    pkill -ife '.ssh/lambda_id_ed25519'
    sleep 1
    pkill -ife -9 '.ssh/lambda_id_ed25519'
    while [[ -n "$(jobs -p)" ]]; do fg || true; done
}

Aphrodite aus der Quelle

# First, check the NFS works.
# runall ln -s my_other_fs_name shared
runhead 'echo world > shared/hello'
runall cat shared/hello

# Install and enable cachefilesd
runall sudo apt-get update
runall sudo apt-get install -y cachefilesd
runall "echo '
RUN=yes
CACHE_TAG=mycache
CACHE_BACKEND=Path=/var/cache/fscache
CACHEFS_RECLAIM=0
' | sudo tee -a /etc/default/cachefilesd"
runall sudo systemctl restart cachefilesd
runall 'sudo journalctl -u cachefilesd | tail -n2'

# Set the "fsc" option on the NFS mount
runhead cat /etc/fstab # should have mount to ~/shared
runall cp /etc/fstab etc-fstab-bak.txt
runall sudo sed -i 's/,proto=tcp,/,proto=tcp,fsc,/g' /etc/fstab
runall cat /etc/fstab

# Remount
runall sudo umount /home/ubuntu/wash2
runall sudo mount /home/ubuntu/wash2
runall cat /proc/fs/nfsfs/volumes # FSC column should say "yes"

# Test cache speedup
runhead dd if=/dev/urandom of=shared/bigfile bs=1M count=8192
runall dd if=shared/bigfile of=/dev/null bs=1M # First one takes 8 seconds
runall dd if=shared/bigfile of=/dev/null bs=1M # Seond takes 0.6 seconds

Überprüfen Sie, ob alle Installationen erfolgreich waren

# We'll also use a shared script instead of changing ~/.profile directly.
# Easier to fix mistakes that way.
runhead 'echo ". /opt/miniconda/etc/profile.d/conda.sh" >> shared/common.sh'
runall 'echo "source /home/ubuntu/shared/common.sh" >> ~/.profile'
runall which conda

# Create the environment
runhead 'conda create --prefix ~/shared/311 -y python=3.11'
runhead '~/shared/311/bin/python --version' # double-check that it is executable
runhead 'echo "conda activate ~/shared/311" >> shared/common.sh'
runall which python

Laden Sie die Gewichte herunter

Gehen Sie zu https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct und stellen Sie sicher, dass Sie über die richtigen Berechtigungen verfügen. Die Genehmigung dauert in der Regel etwa eine Stunde. Holen Sie sich ein Token von https://huggingface.co/settings/tokens

runhead pip install 'numpy<2' torch==2.4.0 --index-url 'https://download.pytorch.org/whl/cu124'

# fix for "libstdc++.so.6: version `GLIBCXX_3.4.30' not found" error:
runhead conda install -y -c conda-forge libstdcxx-ng=12

runhead python -c 'import torch; print(torch.tensor(2).cuda() + 2, "torch ok")'

Führen Sie Lama 405b aus

Wir machen die Server aufeinander aufmerksam, indem wir Ray starten.

runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/triton-3.2.0+git755d4164-cp311-cp311-linux_aarch64.whl'
runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_flash_attn-2.6.1.post2-cp311-cp311-linux_aarch64.whl'

Wir können Aphrodite in einem Terminal-Tab starten:

k=1 ssh_k # ssh into first machine

pip install -U pip setuptools wheel ninja cmake setuptools_scm
git config --global feature.manyFiles true # faster clones
git clone https://github.com/triton-lang/triton.git ~/shared/triton
cd ~/shared/triton/python
git checkout 755d4164 # <-- optional, tested versions
# Note that ninja already parallelizes everything to the extent possible,
# so no sense trying to change the cmake flags or anything.
python setup.py bdist_wheel
pip install --no-deps dist/*.whl # good idea to download this too for later
python -c 'import triton; print("triton ok")'

Und führen Sie eine Abfrage vom lokalen Computer in einem zweiten Terminal aus:

k=2 ssh_k # go into second machine

git clone https://github.com/AlpinDale/flash-attention  ~/shared/flash-attention
cd ~/shared/flash-attention
python setup.py bdist_wheel
pip install --no-deps dist/*.whl
python -c 'import aphrodite_flash_attn; import aphrodite_flash_attn_2_cuda; print("flash attn ok")'
runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_engine-0.6.4.post1-cp311-cp311-linux_aarch64.whl'

Ein gutes Tempo für Text, aber etwas langsam für Code. Wenn Sie zwei 8xH100-Server verbinden, kommen Sie näher an 16 Token pro Sekunde, aber es kostet das Dreifache.

weiterführende Literatur

  • Theoretisch können Sie die Erstellung und Zerstörung von Instanzen mit der Lambda Labs-API https://cloud.lambdalabs.com/api/v1/docs skripten
  • Aphrodite-Dokumente https://aphrodite.pygmalion.chat/
  • vllm-Dokumente (API ist größtenteils gleich) https://docs.vllm.ai/en/latest/

Das obige ist der detaillierte Inhalt vonSo führen Sie Lama B BF mit GHS aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn