Maison >Périphériques technologiques >IA >Tutoriel Torchchat de Pytorch: configuration locale avec Python

Tutoriel Torchchat de Pytorch: configuration locale avec Python

Christopher Nolanoriginal: 2025-03-04 09:21:10377parcourir

Torchchat: apporter une grande inférence du modèle de langue à votre machine locale

Les modèles de langues importants (LLMS) transforment la technologie, mais les déployer sur des appareils personnels a été difficile en raison des limitations matérielles. Le nouveau framework Torchchat de Pytorch aborde cela, permettant une exécution efficace de LLM sur diverses plates-formes matérielles, des ordinateurs portables aux appareils mobiles. Cet article fournit un guide pratique pour configurer et utiliser Torchchat localement avec Python.

Pytorch, le cadre d'apprentissage automatique Open-source de Facebook's AI Research Lab, sous-tend Torchchat. Sa polyvalence s'étend à la vision par ordinateur et au traitement du langage naturel.

Caractéristiques clés de Torchchat:

Torchchat offre quatre fonctionnalités de base:

Python / Pytorch LLM Exécution: Exécuter les LLM sur les machines avec Python et Pytorch installé, interagissant directement via le terminal ou un serveur API REST. Cet article se concentre sur cette configuration.
Déploiement de modèle autonome: En utilisant l'inducteur AOT (inducteur à l'avance), Torchchat crée des exécutables autonomes (bibliothèques dynamiques) indépendantes de Python et Pytorch. Cela garantit l'exécution stable du modèle dans les environnements de production sans recompilation. L'inducteur AOT optimise le déploiement à travers des formats binaires efficaces, dépassant les frais généraux de la torchscript.
Exécution de l'appareil mobile: Tirez parti de l'exécutorch, Torchchat optimise les modèles pour les appareils mobiles et intégrés, produisant des artefacts PTE pour l'exécution.
Évaluation du modèle: Évaluer les performances LLM à l'aide du cadre lm_eval, crucial pour la recherche et l'analyse comparative.

Pourquoi exécuter LLMS localement?

L'exécution LLM locale offre plusieurs avantages:

Intimité améliorée: Idéal pour les données sensibles dans les secteurs de la santé, des finances et des secteurs juridiques, garantissant que les données restent dans l'infrastructure organisationnelle.
performances en temps réel: minimise la latence pour les applications nécessitant des réponses rapides, telles que les chatbots interactifs et la génération de contenu en temps réel.
Capacité hors ligne: permet une utilisation LLM dans des zones avec une connectivité Internet limitée ou pas.
Optimisation des coûts: plus rentable que l'utilisation de l'API cloud pour les applications à volume élevé.

Configuration locale avec Python: un guide étape par étape

Clone Le référentiel: Clone Le référentiel Torchchat à l'aide de Git:
```
git clone git@github.com:pytorch/torchchat.git
```
Alternativement, téléchargez directement à partir de l'interface GitHub.
Installation: En supposant que Python 3.10 est installé, créez un environnement virtuel:
```
python -m venv .venv
source .venv/bin/activate
```
Installez les dépendances à l'aide du script fourni:
```
./install_requirements.sh
```
Vérifiez l'installation:
```
git clone git@github.com:pytorch/torchchat.git
```
en utilisant Torchchat:
- Listing des modèles pris en charge:
```
python -m venv .venv
source .venv/bin/activate
```
- Téléchargement d'un modèle: Installez le Face Cli étreint (pip install huggingface_hub), créez un compte de visage étreint, générez un jeton d'accès et connectez-vous (huggingface-cli login). Téléchargez un modèle (par exemple, stories15M):
```
./install_requirements.sh
```
- exécuter un modèle: Générer du texte:
```
python torchchat.py --help
```
  ou utilisez le mode de chat:
```
python torchchat.py list
```
- Demander l'accès: pour les modèles nécessitant un accès (par exemple, llama3), suivez les instructions du message d'erreur.

Utilisation avancée: performances de réglage fin

Contrôle de précision (--dtype): Ajuster le type de données pour les compromis de vitesse / précision (par exemple, --dtype fast).
Compilation juste dans le temps (JIT) (--compile): Améliore la vitesse d'inférence (mais augmente le temps de démarrage).
La quantification (--quantize): réduit la taille du modèle et améliore la vitesse à l'aide d'un fichier de configuration JSON.
Spécification du périphérique (--device): Spécifiez le périphérique (par exemple, --device cuda).

Conclusion

Torchchat simplifie l'exécution LLM locale, ce qui rend l'IA avancé plus accessible. Ce guide fournit une base pour explorer ses capacités. Une enquête plus approfondie sur les caractéristiques de Torchchat est fortement recommandée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python json pip for Error Token using Interface this github git pytorch Access Foundation Healthcare

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Générer des vidéos réalistes avec la diffusion Nvidia Cosmos 1.0Article suivant：Générer des vidéos réalistes avec la diffusion Nvidia Cosmos 1.0

Articles Liés

Voir plus