Maison >développement back-end >Tutoriel Python >Quelles sont les options pour exécuter LLM localement à l'aide de poids pré-entraînés ?
J'ai un cluster qui n'est pas connecté à internet bien qu'un référentiel de poids soit disponible. Je dois exécuter l'inférence LLM dessus.
La seule option que j'ai trouvée jusqu'à présent est d'utiliser le logiciel transformers
和 langchain
模块的组合,但我不想调整模型的超参数。我遇到了 ollama
, mais je ne peux rien installer sur le cluster, à l'exception de la bibliothèque python. Alors, naturellement, je me suis demandé quelles sont les options pour exécuter l’inférence LLM ? Il reste encore quelques questions.
ollama-python
packages sans installer leur logiciel Linux ? Ou ai-je besoin des deux pour mener mon raisonnement ? ollama
,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin
sur ce cluster Vous n'êtes pas réellement obligé d'installer le ollama
。相反,您可以直接本地运行 llm,例如 mistral
modèle
llm = gpt4all( model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf", device='gpu', n_threads=8, callbacks=callbacks, verbose=true)
ou pour falcon
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import torch model_id = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_id) pipeline = pipeline( "text-generation", model=model_id, tokenizer=tokenizer, torch_dtype=torch.bfloat16, # trust_remote_code=True, device_map="auto", max_new_tokens=100, # max_length=200, ) from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline llm = HuggingFacePipeline(pipeline=pipeline)
J'ai 16 Go de mémoire nvidia 4090 installée sur mon ordinateur portable, qui peut prendre en charge les 2 modèles ci-dessus pour fonctionner localement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!