Les laboratoires Lambda disposent actuellement de GH200 à moitié prix pour habituer davantage de personnes aux outils ARM. Cela signifie que vous pouvez peut-être vous permettre d’exécuter les plus gros modèles open source ! Le seul bémol est que vous devrez occasionnellement créer quelque chose à partir des sources. Voici comment j'ai fait fonctionner le lama 405b avec une précision totale sur les GH200.
Créer des instances
Llama 405b fait environ 750 Go, vous avez donc besoin d'environ 10 GPU de 96 Go pour l'exécuter. (Le GH200 a une assez bonne vitesse d'échange de mémoire CPU-GPU - c'est un peu tout l'intérêt du GH200 - vous pouvez donc en utiliser aussi peu que 3. Le temps par jeton sera terrible, mais le débit total est acceptable, si vous effectuez un traitement par lots.) Connectez-vous aux laboratoires lambda et créez un groupe d'instances GH200. Assurez-vous de leur donner à tous le même système de fichiers réseau partagé.
Enregistrez les adresses IP dans ~/ips.txt.
Aides à la connexion SSH en masse
Je préfère le bash & ssh direct à tout ce qui est sophistiqué comme kubernetes ou slurm. C'est gérable avec quelques aides.
# skip fingerprint confirmation for ip in $(cat ~/ips.txt); do echo "doing $ip" ssh-keyscan $ip >> ~/.ssh/known_hosts done function run_ip() { ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip -- stdbuf -oL -eL bash -l -c "$(printf "%q" "$*")" /dev/null } function runall() { ips="$(cat ~/ips.txt)" run_ips "$@"; } function runrest() { ips="$(tail -n+2 ~/ips.txt)" run_ips "$@"; } function ssh_k() { ip=$(sed -n "$k"p ~/ips.txt) ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip } alias ssh_head='k=1 ssh_k' function killall() { pkill -ife '.ssh/lambda_id_ed25519' sleep 1 pkill -ife -9 '.ssh/lambda_id_ed25519' while [[ -n "$(jobs -p)" ]]; do fg || true; done }
Configurer le cache NFS
Nous mettrons l'environnement python et les poids du modèle dans le NFS. Il se chargera beaucoup plus rapidement si nous le mettons en cache.
# First, check the NFS works. # runall ln -s my_other_fs_name shared runhead 'echo world > shared/hello' runall cat shared/hello # Install and enable cachefilesd runall sudo apt-get update runall sudo apt-get install -y cachefilesd runall "echo ' RUN=yes CACHE_TAG=mycache CACHE_BACKEND=Path=/var/cache/fscache CACHEFS_RECLAIM=0 ' | sudo tee -a /etc/default/cachefilesd" runall sudo systemctl restart cachefilesd runall 'sudo journalctl -u cachefilesd | tail -n2' # Set the "fsc" option on the NFS mount runhead cat /etc/fstab # should have mount to ~/shared runall cp /etc/fstab etc-fstab-bak.txt runall sudo sed -i 's/,proto=tcp,/,proto=tcp,fsc,/g' /etc/fstab runall cat /etc/fstab # Remount runall sudo umount /home/ubuntu/wash2 runall sudo mount /home/ubuntu/wash2 runall cat /proc/fs/nfsfs/volumes # FSC column should say "yes" # Test cache speedup runhead dd if=/dev/urandom of=shared/bigfile bs=1M count=8192 runall dd if=shared/bigfile of=/dev/null bs=1M # First one takes 8 seconds runall dd if=shared/bigfile of=/dev/null bs=1M # Seond takes 0.6 seconds
Créer un environnement conda
Au lieu d'exécuter soigneusement exactement les mêmes commandes sur chaque machine, nous pouvons utiliser un environnement conda dans le NFS et simplement le contrôler avec le nœud principal.
# We'll also use a shared script instead of changing ~/.profile directly. # Easier to fix mistakes that way. runhead 'echo ". /opt/miniconda/etc/profile.d/conda.sh" >> shared/common.sh' runall 'echo "source /home/ubuntu/shared/common.sh" >> ~/.profile' runall which conda # Create the environment runhead 'conda create --prefix ~/shared/311 -y python=3.11' runhead '~/shared/311/bin/python --version' # double-check that it is executable runhead 'echo "conda activate ~/shared/311" >> shared/common.sh' runall which python
Installer les dépendances d'Aphrodite
Aphrodite est un fork de vllm qui démarre un peu plus rapidement et possède quelques fonctionnalités supplémentaires.
Il exécutera l'API d'inférence compatible openai et le modèle lui-même.
Vous avez besoin d'une torche, d'un triton et d'un flash-attention.
Vous pouvez obtenir des versions de torche aarch64 sur pytorch.org (vous ne voulez pas la construire vous-même).
Les deux autres, vous pouvez soit les construire vous-même, soit utiliser la roue que j'ai fabriquée.
Si vous construisez à partir des sources, vous pouvez gagner un peu de temps en exécutant python setup.py bdist_wheel pour triton, flash-attention et aphrodite en parallèle sur trois machines différentes. Ou vous pouvez les faire un par un sur la même machine.
runhead pip install 'numpy <h4> triton et attention flash des roues </h4> <pre class="brush:php;toolbar:false">runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/triton-3.2.0+git755d4164-cp311-cp311-linux_aarch64.whl' runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_flash_attn-2.6.1.post2-cp311-cp311-linux_aarch64.whl'
triton de la source
k=1 ssh_k # ssh into first machine pip install -U pip setuptools wheel ninja cmake setuptools_scm git config --global feature.manyFiles true # faster clones git clone https://github.com/triton-lang/triton.git ~/shared/triton cd ~/shared/triton/python git checkout 755d4164 # <h4> attention flash de la source </h4> <pre class="brush:php;toolbar:false">k=2 ssh_k # go into second machine git clone https://github.com/AlpinDale/flash-attention ~/shared/flash-attention cd ~/shared/flash-attention python setup.py bdist_wheel pip install --no-deps dist/*.whl python -c 'import aphrodite_flash_attn; import aphrodite_flash_attn_2_cuda; print("flash attn ok")'
Installer Aphrodite
Vous pouvez utiliser ma roue ou la construire vous-même.
aphrodite de la roue
# skip fingerprint confirmation for ip in $(cat ~/ips.txt); do echo "doing $ip" ssh-keyscan $ip >> ~/.ssh/known_hosts done function run_ip() { ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip -- stdbuf -oL -eL bash -l -c "$(printf "%q" "$*")" /dev/null } function runall() { ips="$(cat ~/ips.txt)" run_ips "$@"; } function runrest() { ips="$(tail -n+2 ~/ips.txt)" run_ips "$@"; } function ssh_k() { ip=$(sed -n "$k"p ~/ips.txt) ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip } alias ssh_head='k=1 ssh_k' function killall() { pkill -ife '.ssh/lambda_id_ed25519' sleep 1 pkill -ife -9 '.ssh/lambda_id_ed25519' while [[ -n "$(jobs -p)" ]]; do fg || true; done }
aphrodite de la source
# First, check the NFS works. # runall ln -s my_other_fs_name shared runhead 'echo world > shared/hello' runall cat shared/hello # Install and enable cachefilesd runall sudo apt-get update runall sudo apt-get install -y cachefilesd runall "echo ' RUN=yes CACHE_TAG=mycache CACHE_BACKEND=Path=/var/cache/fscache CACHEFS_RECLAIM=0 ' | sudo tee -a /etc/default/cachefilesd" runall sudo systemctl restart cachefilesd runall 'sudo journalctl -u cachefilesd | tail -n2' # Set the "fsc" option on the NFS mount runhead cat /etc/fstab # should have mount to ~/shared runall cp /etc/fstab etc-fstab-bak.txt runall sudo sed -i 's/,proto=tcp,/,proto=tcp,fsc,/g' /etc/fstab runall cat /etc/fstab # Remount runall sudo umount /home/ubuntu/wash2 runall sudo mount /home/ubuntu/wash2 runall cat /proc/fs/nfsfs/volumes # FSC column should say "yes" # Test cache speedup runhead dd if=/dev/urandom of=shared/bigfile bs=1M count=8192 runall dd if=shared/bigfile of=/dev/null bs=1M # First one takes 8 seconds runall dd if=shared/bigfile of=/dev/null bs=1M # Seond takes 0.6 seconds
Vérifiez que toutes les installations ont réussi
# We'll also use a shared script instead of changing ~/.profile directly. # Easier to fix mistakes that way. runhead 'echo ". /opt/miniconda/etc/profile.d/conda.sh" >> shared/common.sh' runall 'echo "source /home/ubuntu/shared/common.sh" >> ~/.profile' runall which conda # Create the environment runhead 'conda create --prefix ~/shared/311 -y python=3.11' runhead '~/shared/311/bin/python --version' # double-check that it is executable runhead 'echo "conda activate ~/shared/311" >> shared/common.sh' runall which python
Téléchargez les poids
Allez sur https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct et assurez-vous que vous disposez des autorisations appropriées. L'approbation prend généralement environ une heure. Obtenez un jeton sur https://huggingface.co/settings/tokens
runhead pip install 'numpy <h3> courir lama 405b </h3> <p>Nous informerons les serveurs les uns des autres en démarrant Ray.<br> </p> <pre class="brush:php;toolbar:false">runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/triton-3.2.0+git755d4164-cp311-cp311-linux_aarch64.whl' runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_flash_attn-2.6.1.post2-cp311-cp311-linux_aarch64.whl'
Nous pouvons démarrer aphrodite dans un seul onglet de terminal :
k=1 ssh_k # ssh into first machine pip install -U pip setuptools wheel ninja cmake setuptools_scm git config --global feature.manyFiles true # faster clones git clone https://github.com/triton-lang/triton.git ~/shared/triton cd ~/shared/triton/python git checkout 755d4164 # <p>Et exécutez une requête depuis la machine locale dans un deuxième terminal :<br> </p> <pre class="brush:php;toolbar:false">k=2 ssh_k # go into second machine git clone https://github.com/AlpinDale/flash-attention ~/shared/flash-attention cd ~/shared/flash-attention python setup.py bdist_wheel pip install --no-deps dist/*.whl python -c 'import aphrodite_flash_attn; import aphrodite_flash_attn_2_cuda; print("flash attn ok")'
runhead pip install 'https://github.com/qpwo/lambda-gh200-llama-405b-tutorial/releases/download/v0.1/aphrodite_engine-0.6.4.post1-cp311-cp311-linux_aarch64.whl'
Un bon rythme pour le texte, mais un peu lent pour le code. Si vous connectez 2 serveurs 8xH100 alors vous vous rapprochez de 16 tokens par seconde, mais cela coûte trois fois plus cher.
lectures complémentaires
- Théoriquement, vous pouvez créer et détruire des instances avec l'API lambda labs https://cloud.lambdalabs.com/api/v1/docs
- docs aphrodite https://aphrodite.pygmalion.chat/
- docs vllm (l'API est essentiellement la même) https://docs.vllm.ai/en/latest/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

ArraySareNenerallyMoreMemory Econtesious ANLILISTS INFORMAGE UNIMÉRIQUE DATADUETOTHEIRFIXED-SIZENATURANDDDIRECTMEMORYACCESS.1) ArraySstoreelementsInAconGuLblock, réduisant les listes de linge-ouvrages

ToconvertapyThonListoanArray, usethearraymodule: 1) ImportTheArraymodule, 2) Crééalist, 3) usearray (typecode, list) toconvertit, spécifiant le système de code pour la datte, améliorant la performance

Les listes Python peuvent stocker différents types de données. L'exemple de liste contient des entiers, des chaînes, des numéros de points flottants, des booléens, des listes imbriquées et des dictionnaires. La flexibilité de la liste est précieuse dans le traitement des données et le prototypage, mais il doit être utilisé avec prudence pour assurer la lisibilité et la maintenabilité du code.

PythondoSoSnothaveBuilt-inArrays; utEtHeArrayModuleformMory-EfficientHomoGeneousDatastorage, tandis que lestiné pour les dataTypes.

ThemostComMonlyUsedModuleforCreatingArraysInpyThonisNumpy.1) numpyprovidesefficientToolsforArrayoperations, IdealFornumericalData.2) ArraysCanBecatedUsingNp.Array () For1dand2Dstructures.3)

ToAppendementStoapyThonList, usetheAppend () methodforsingleelements, prolong () forulTipleElements, andInsert () forSpecificPositifs.1) useAppend () foraddingOneelementAtheend.2) useExtend () ToaddMultipleElementSEFFIENTLY.3)

TOCREATEAPYTHONLIST, USSquareBracket [] et SEPARateItemswithcommas.1) listsaredynynamicandcanholdmixeddatatypes.2) useAppend (), retire (), andslitingformMipulation.3) Listcomprehensationafficientforcereglists.4)

Dans les domaines de la finance, de la recherche scientifique, des soins médicaux et de l'IA, il est crucial de stocker et de traiter efficacement les données numériques. 1) En finance, l'utilisation de fichiers mappés de mémoire et de bibliothèques Numpy peut considérablement améliorer la vitesse de traitement des données. 2) Dans le domaine de la recherche scientifique, les fichiers HDF5 sont optimisés pour le stockage et la récupération des données. 3) Dans les soins médicaux, les technologies d'optimisation de la base de données telles que l'indexation et le partitionnement améliorent les performances des requêtes de données. 4) Dans l'IA, la fragmentation des données et la formation distribuée accélèrent la formation du modèle. Les performances et l'évolutivité du système peuvent être considérablement améliorées en choisissant les bons outils et technologies et en pesant les compromis entre les vitesses de stockage et de traitement.


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Dreamweaver CS6
Outils de développement Web visuel
