Maison >Périphériques technologiques >IA >Comment exécuter Llama 3 localement: un guide complet

Comment exécuter Llama 3 localement: un guide complet

Joseph Gordon-Levittoriginal: 2025-03-06 11:05:11243parcourir

L'exécution de modèles de grande langue (LLMS) comme Llama 3 Localement offre des avantages importants dans le paysage de l'IA. Étreindre le visage et d'autres plates-formes défendent le déploiement local, permettant un accès modèle privé et ininterrompu. Ce guide explore les avantages de l'exécution LLM locale, démontrant l'utilisation avec GPT4ALL et OLLAMA, le service de modèle, l'intégration VScode et enfin, la construction d'une application AI personnalisée.

Pourquoi le déploiement local Llama 3?

Tout en exigeant une puissance élevée de RAM, de GPU et de traitement, les progrès rendent de plus en plus l'exécution de LLAMA 3. Les principaux avantages comprennent:

Accès ininterrompu: Évitez les limites de taux et les perturbations du service.
Performances améliorées: Expérience de la génération de réponse plus rapide avec une latence minimale. Même les ordinateurs portables de milieu de gamme atteignent des vitesses autour de 50 jetons par seconde.
Sécurité améliorée: Gardez le contrôle total des entrées et des données, en gardant tout local.
Économies de coûts: Éliminer les frais d'API et les abonnements.
Personnalisation et flexibilité: Finez des modèles avec des hyperparamètres, des jetons d'arrêt et des paramètres avancés.
Capacité hors ligne: Utilisez le modèle sans connexion Internet.
Propriété et contrôle: conserver la propriété complète du modèle, des données et des sorties.

Pour une plongée plus profonde dans le cloud par rapport à l'utilisation locale de LLM, consultez notre article, "Cloud vs déploiement LLM local: pesant les avantages et les inconvénients."

LLAMA 3 avec GPT4ALL et OLLAMA

GPT4ALL est un outil open source pour exécuter LLMS localement, même sans GPU. Son interface conviviale s'adresse aux utilisateurs techniques et non techniques.

Téléchargez et installez GPT4ALL (instructions Windows disponibles sur la page de téléchargement officielle). Lancez l'application, accédez à la section "Téléchargements", sélectionnez "Llama 3 instruct" et téléchargez. Après le téléchargement, sélectionnez "Llama 3 instruct" dans le menu "Choisissez un modèle". Entrez votre invite et interagissez avec le modèle. L'accélération du GPU (si disponible) accélérera considérablement les réponses.

How to Run Llama 3 Locally: A Complete Guide

Olllama fournit une approche plus simple. Téléchargez et installez Olllama. Ouvrez votre terminal / powerShell et exécutez:

ollama run llama3

(Remarque: le téléchargement du modèle et l'initialisation du chatbot peuvent prendre plusieurs minutes.)

Interagissez avec le chatbot via le terminal. Tapez /bye pour quitter.

How to Run Llama 3 Locally: A Complete Guide

Explorez des outils et des frameworks supplémentaires dans notre guide "7 méthodes simples pour exécuter LLMS localement".

Local Llama 3 Server and API Access

Un serveur local permet l'intégration de Llama 3 dans d'autres applications. Démarrez le serveur avec:

ollama run llama3

Vérifiez l'état du serveur via l'icône du plateau système Olllama (cliquez avec le bouton droit pour afficher les journaux).

How to Run Llama 3 Locally: A Complete Guide

Accédez à l'API à l'aide de curl:

ollama serve

(Curl est originaire de Linux mais fonctionne également dans Windows PowerShell.)

How to Run Llama 3 Locally: A Complete Guide

Alternativement, utilisez le package Ollama Python:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "What are God Particles?" }
  ],
  "stream": false
}'

How to Run Llama 3 Locally: A Complete Guide

Le package prend en charge les appels asynchrones et le streaming pour une efficacité améliorée.

Intégration VScode avec codegpt

Intégrer Llama 3 dans VSCODE pour des fonctionnalités telles que la complétion automatique et les suggestions de code.

Démarrez le serveur Olllama (ollama serve).
Installez l'extension VScode "CodeGPT".
Configurer CodeGpt, en sélectionnant Olllama comme fournisseur et "LLAMA3: 8B" comme modèle (aucune clé API nécessaire).
Utilisez les invites de CodeGPT pour générer et affiner le code dans vos fichiers Python.

How to Run Llama 3 Locally: A Complete Guide

Voir "Configuration de VScode pour Python" pour la configuration avancée.

Développer une application AI locale

Cette section détaille la création d'une application AI qui traite les fichiers DOCX, génère des intégres, utilise un magasin vectoriel pour la recherche de similitude et fournit des réponses contextuelles aux requêtes utilisateur.

(Des exemples de code détaillés et des explications sont omis pour la concision mais sont disponibles dans l'entrée d'origine.) Le processus implique:

Configuration des packages Python nécessaires.
Chargement des fichiers docx à l'aide de DirectoryLoader.
Fractionnement du texte en morceaux gérables.
Générer des intérêts avec le Llama 3 d'Olllama et les stocker dans un magasin de vecteur de chroma.
Construire une chaîne de Langchain pour la réponse aux questions, incorporant le magasin vectoriel, Rag Invite et Ollama Llm.
Création d'une application de terminal interactive pour interroger le système.

How to Run Llama 3 Locally: A Complete Guide

Le code complet de cette application est disponible sur github (lien fourni dans l'entrée d'origine).

Conclusion

Running Llama 3 Localement, les utilisateurs ont la confidentialité, la rentabilité et le contrôle. Ce guide démontre la puissance des outils et cadres open source pour créer des applications d'IA sophistiquées sans s'appuyer sur les services cloud. Les exemples fournis mettent en valeur la facilité d'intégration avec les environnements de développement populaires et le potentiel de création de solutions AI personnalisées.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python if for while select include cURL using private Interface finally this input github windows vscode linux everything llama langchain prompt Access Prompt Other

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Normalisation par lots: théorie et implémentation TensorFlowArticle suivant：Normalisation par lots: théorie et implémentation TensorFlow

Articles Liés

Voir plus