Maison >développement back-end >Tutoriel Python >Quelles sont les options pour exécuter LLM localement à l'aide de poids pré-entraînés ?

Quelles sont les options pour exécuter LLM localement à l'aide de poids pré-entraînés ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2024-02-22 12:34:09656parcourir

Quelles sont les options pour exécuter LLM localement à laide de poids pré-entraînés ?

Contenu de la question

J'ai un cluster qui n'est pas connecté à internet bien qu'un référentiel de poids soit disponible. Je dois exécuter l'inférence LLM dessus.

La seule option que j'ai trouvée jusqu'à présent est d'utiliser le logiciel transformers 和 langchain 模块的组合，但我不想调整模型的超参数。我遇到了 ollama, mais je ne peux rien installer sur le cluster, à l'exception de la bibliothèque python. Alors, naturellement, je me suis demandé quelles sont les options pour exécuter l’inférence LLM ? Il reste encore quelques questions.

Puis-je simplement installer ollama-python packages sans installer leur logiciel Linux ? Ou ai-je besoin des deux pour mener mon raisonnement ?
Si j'arrive à installer ollama，如何为模型提供预训练权重？如果有帮助，它们存储在（有时多个）.bin sur ce cluster

Bonne réponse

Vous n'êtes pas réellement obligé d'installer le ollama。相反，您可以直接本地运行 llm，例如 mistral modèle

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)

ou pour falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)

J'ai 16 Go de mémoire nvidia 4090 installée sur mon ordinateur portable, qui peut prendre en charge les 2 modèles ci-dessus pour fonctionner localement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python linux langchain

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Impossible de valider XML à l'aide du schéma, mais fonctionne en lisant le fichier écrit à partir deArticle suivant：Impossible de valider XML à l'aide du schéma, mais fonctionne en lisant le fichier écrit à partir de

Articles Liés

Voir plus